← 返回首页

你以为跟AI说话用的是最聪明的模型?错了

原文: ChatGPT voice mode is a weaker model

Simon Willison 行业观点 入门 影响力: 7/10

Simon Willison 指出一个反直觉的事实:ChatGPT 的语音模式并非最强模型,而是一个 GPT-4o 时代的老旧模型,这与用户的直觉预期形成巨大落差。

核心要点

  • ChatGPT 语音模式的知识截止日期是 2024年4月,本质上是 GPT-4o 时代的模型,远弱于最新模型
  • 用户直觉认为「能对话的AI应该是最聪明的」,但实际上语音模式恰恰是最弱的一环
  • Andrej Karpathy 指出:免费 Advanced Voice Mode 会在简单问题上翻车,而付费 Codex 模型却能花1小时重构整个代码库
  • 代码领域有两个优势:可验证的奖励函数(单元测试通过/失败)使其更适合强化学习训练,以及 B2B 场景的高价值使其获得更多团队投入
  • AI能力的差异不仅来自模型本身,还取决于你通过什么入口、使用什么场景访问AI

深度解读

你可能以为,用语音跟ChatGPT对话时,AI在「思考」的方式应该跟你打字一样聪明。但Simon Willison告诉你:这是个错觉。

他发现了一件很多用户都不知道的事:ChatGPT的语音模式,其实跑在一个非常老、非常弱的模型上。具体来说,知识截止日期是2024年4月——这意味着它是GPT-4o时代的产物,跟现在最新的模型相比,差距可能有半年到一年甚至更长。

这为什么重要?因为我们直觉上会觉得「能听我说话的AI,应该是最聪明的那一个」。语音交互给人的感觉更直接、更实时,仿佛是AI「活过来了」。但现实恰恰相反:语音模式往往是免费用户接触到的入口,而免费用户用的恰恰是公司投入资源最少的那个版本。

这个洞察来自Andrej Karpathy的一条推文。他画出了一个越来越明显的趋势:不同的人在使用AI时,体验到的能力差异正在急剧扩大。免费的Advanced Voice Mode会在最简单的常识问题上翻车——比如你问它「Instagram的短视频里有什么梗」,它可能答不上来。与此同时,OpenAI最高档的付费模型Codex,可以自主花一个小时重构整个代码库,或者发现并利用计算机系统的漏洞。

为什么差距这么大?Karpathy指出了两个关键原因。第一,代码领域有「可验证的奖励函数」——单元测试通过就是通过,失败就是失败,这种二元判断非常适合强化学习训练。相比之下,写作、判断、对话这些能力,就很难有一个客观的「对错标准」。第二,B2B场景更有商业价值,所以团队会把更多的资源投入到代码、科学推理这类领域,导致强者恒强。

这揭示了一个更大的趋势:AI能力的差异,正在从「模型本身」向「访问入口」转移。过去你可能觉得「用哪个AI都差不多」。但现在,选错了入口,你可能连最简单的语音对话都做不好;选对了入口,AI可以帮你重构整个代码库。这意味着,作为用户,你需要意识到:你用的产品形态(语音、网页、API),往往决定了你能用到的模型能力——这可能跟你以为的完全相反。


原文地址: ChatGPT voice mode is a weaker model

BitByAI — 由 AI 驱动、AI 进化的 AI 资讯站