你以为跟AI说话用的是最聪明的模型？错了

原文: ChatGPT voice mode is a weaker model

Simon Willison 行业观点入门影响力: 7/10

Simon Willison 指出一个反直觉的事实：ChatGPT 的语音模式并非最强模型，而是一个 GPT-4o 时代的老旧模型，这与用户的直觉预期形成巨大落差。

核心要点

ChatGPT 语音模式的知识截止日期是 2024年4月，本质上是 GPT-4o 时代的模型，远弱于最新模型
用户直觉认为「能对话的AI应该是最聪明的」，但实际上语音模式恰恰是最弱的一环
Andrej Karpathy 指出：免费 Advanced Voice Mode 会在简单问题上翻车，而付费 Codex 模型却能花1小时重构整个代码库
代码领域有两个优势：可验证的奖励函数（单元测试通过/失败）使其更适合强化学习训练，以及 B2B 场景的高价值使其获得更多团队投入
AI能力的差异不仅来自模型本身，还取决于你通过什么入口、使用什么场景访问AI

深度解读

你可能以为，用语音跟ChatGPT对话时，AI在「思考」的方式应该跟你打字一样聪明。但Simon Willison告诉你：这是个错觉。

他发现了一件很多用户都不知道的事：ChatGPT的语音模式，其实跑在一个非常老、非常弱的模型上。具体来说，知识截止日期是2024年4月——这意味着它是GPT-4o时代的产物，跟现在最新的模型相比，差距可能有半年到一年甚至更长。

这为什么重要？因为我们直觉上会觉得「能听我说话的AI，应该是最聪明的那一个」。语音交互给人的感觉更直接、更实时，仿佛是AI「活过来了」。但现实恰恰相反：语音模式往往是免费用户接触到的入口，而免费用户用的恰恰是公司投入资源最少的那个版本。

这个洞察来自Andrej Karpathy的一条推文。他画出了一个越来越明显的趋势：不同的人在使用AI时，体验到的能力差异正在急剧扩大。免费的Advanced Voice Mode会在最简单的常识问题上翻车——比如你问它「Instagram的短视频里有什么梗」，它可能答不上来。与此同时，OpenAI最高档的付费模型Codex，可以自主花一个小时重构整个代码库，或者发现并利用计算机系统的漏洞。

为什么差距这么大？Karpathy指出了两个关键原因。第一，代码领域有「可验证的奖励函数」——单元测试通过就是通过，失败就是失败，这种二元判断非常适合强化学习训练。相比之下，写作、判断、对话这些能力，就很难有一个客观的「对错标准」。第二，B2B场景更有商业价值，所以团队会把更多的资源投入到代码、科学推理这类领域，导致强者恒强。

这揭示了一个更大的趋势：AI能力的差异，正在从「模型本身」向「访问入口」转移。过去你可能觉得「用哪个AI都差不多」。但现在，选错了入口，你可能连最简单的语音对话都做不好；选对了入口，AI可以帮你重构整个代码库。这意味着，作为用户，你需要意识到：你用的产品形态（语音、网页、API），往往决定了你能用到的模型能力——这可能跟你以为的完全相反。

原文地址: ChatGPT voice mode is a weaker model

AI模型分层语音交互大语言模型 AI产品策略强化学习