标签: 大语言模型 (12 篇)

你以为跟AI说话用的是最聪明的模型？错了

Simon Willison 指出一个反直觉的事实：ChatGPT 的语音模式并非最强模型，而是一个 GPT-4o 时代的老旧模型，这与用户的直觉预期形成巨大落差。

Simon Willison · 2026-04-10T15:56:02+00:00

\"Simon Willison 发现了 meta.ai 背后隐藏的 16 个工具，包括浏览器搜索、跨平台内容检索和 Python 代码执行，这揭示了 AI 聊天界面正在演变为'工具集合'的趋势。\"

Simon Willison · 2026-04-08T23:07:44+00:00

Gemma 4 引入了更强大的多模态能力，支持图像、文本和音频输入，极大提升了模型的智能化水平和灵活性，适合各种设备部署。

Hugging Face Blog · Thu, 02 Apr 2026 00:00:00 GMT

Gradio.Server 的推出让开发者可以使用自定义前端框架，同时享受 Gradio 强大的后端支持，极大地提升了应用开发的灵活性与效率。

Hugging Face Blog · Wed, 01 Apr 2026 00:00:00 GMT

Ulysses序列并行性通过分布式计算解决了大语言模型训练中的长序列问题，显著提升了模型处理百万级token的能力。

Hugging Face Blog · Mon, 09 Mar 2026 00:00:00 GMT

专家混合模型（MoEs）通过提高计算效率和优化并行处理，正在成为Transformer模型的新趋势，推动了大规模语言模型的发展。

Hugging Face Blog · Thu, 26 Feb 2026 00:00:00 GMT

Andrej Karpathy 的 microgpt 项目以仅 200 行 Python 代码展示了如何从零开始实现一个简化版的 GPT 模型，揭示了 AI 研发的简约趋势。

Andrej Karpathy · Thu, 12 Feb 2026 07:00:00 +0000

本文探讨了大语言模型中的外部幻觉现象，分析其原因及检测方法，并提出了减少幻觉的有效策略，强调了知识更新的风险。

Lilian Weng · Sun, 07 Jul 2024 00:00:00 +0000

本文探讨了对大语言模型（LLM）的对抗攻击，包括攻击类型、威胁模型及其对生成文本安全性的影响，揭示了在AI安全性领域的重大挑战。

Lilian Weng · Wed, 25 Oct 2023 00:00:00 +0000

LLM驱动的自主智能体结合计划、记忆和工具使用，展现了其在复杂任务处理中的潜力，预示着工作方式的重大转变。

Lilian Weng · Fri, 23 Jun 2023 00:00:00 +0000

本文深入探讨了 Prompt 工程的基本概念与技巧，强调了在与大语言模型交互时有效沟通的重要性，以及如何通过示例选择与排序优化模型表现。

Lilian Weng · Wed, 15 Mar 2023 00:00:00 +0000

Lilian Weng 的新文章深入探讨了 Transformer 的演变与新特性，揭示了这一重要架构在自然语言处理中的持续影响力。

Lilian Weng · Fri, 27 Jan 2023 00:00:00 +0000