这则关于 GPT-5 的传言将改变一切 [译]

这则关于 GPT-5 的传言将改变一切 [译]

让我们用一个激动人心的话题开启新的一年

如果我告诉你 GPT-5 是真实存在的呢?不仅真实存在,而且它已经在你看不到的地方塑造着世界。基本假设是:OpenAI 已经开发出 GPT-5,但把它留在内部使用,因为这样获得的回报远远大于开放给数百万 ChatGPT 用户使用。而且他们获得的回报并不是金钱,而是别的东西。你看,这个想法本身很简单;难点在于如何把零碎的信息拼凑起来,形成完整的推断。本文将深入探讨我为什么认为所有线索都指向这个结论。

先声明:这纯属猜测。信息皆来自公开渠道,并没有任何能证实我正确的爆料或内部传言。事实上,这篇文章不是单纯传播某个说法,而是我本人在构建这个理论。我并没有掌握什么特权信息——若真有的话,我早就被 NDA(保密协议)捆住了。之所以这个假设如此引人注目,是因为它说得通。坦白说,我又还需要什么理由,才能好好炒一炒这则传言呢?

究竟我是否被“宽恕”,还要看你们。即使我的推测是错的(未来我们总会知道的),我也觉得这个推理过程挺有趣。我欢迎大家在评论区里发挥想象,但希望大家能保持建设性、理性思考。最重要的是,请先看完全文再讨论。除此之外,一切讨论都欢迎。


I. 关于 Claude Opus 3.5 神秘失踪的故事

在正式聊 GPT-5 之前,我们先来看看它的“远方亲戚”——也同样失踪的 Anthropic Claude Opus 3.5。

正如你所知,三大 AI 实验室——OpenAI、Google DeepMind 和 Anthropic——都推出了覆盖不同价格/延迟与性能区间的多款模型。OpenAI 拥有 GPT-4o、GPT-4o mini、以及 o1、o1-mini 等;Google DeepMind 提供 Gemini Ultra、Pro、Flash;Anthropic 则有 Claude Opus、Sonnet 和 Haiku。目标很明确:尽可能满足不同客户群。有些人只要最顶级的性能,不惜代价;也有人更注重成本,追求“够用就好”。到这里一切都很正常。

但 2024 年 10 月期间,事情突然有点诡异了。大家都以为 Anthropic 会发布 Claude Opus 3.5 以对标五月份推出的 GPT-4o,然而 10 月 22 日他们却只发布了 Claude Sonnet 3.5 的更新版本(后来大家称之为 Sonnet 3.6),却没见到 Opus 3.5 的踪影。也就是说 Anthropic 等于缺少了对标 GPT-4o 的主力模型。真是奇怪,对吗?下面是关于 Opus 3.5 的时间线,以及人们到底在说些什么、发生了什么:

  • 10 月 28 日,我在我的每周回顾文章里 写道:“有传言称 Sonnet 3.6 是…… Opus 3.5 训练失败后中途保存的检查点。” 同一天,r/ClaudeAI 子版块出现了一个 帖子 称 “Claude 3.5 Opus 已被废弃”,并附了 Anthropic 模型介绍页面 的链接。到目前为止,这个页面上依旧没有提到 Opus 3.5。有些人猜测,这可能是出于 Anthropic 即将 进行新一轮融资 前,为了维持投资人信心的战略性做法。

  • 11 月 11 日,Anthropic CEO Dario Amodei 做客 Lex Fridman 播客时 否认 他们放弃了 Opus 3.5:“我没有确切的时间表,但据我们所知,仍然打算推出 Claude 3.5 Opus。” 他虽表态谨慎且模棱两可,但并不算驳斥传言。

  • 11 月 13 日,Bloomberg 在一篇 报道 中证实了早前的谣言:“在完成训练后,Anthropic 发现 3.5 Opus 在测试里比上一代表现更好,但远没到它规模、研发成本以及推理开销所应达到的水平。” 也就是说,Dario 不愿给具体时间,是因为虽然 Opus 3.5 训练并没有彻底失败,但结果并没有好到足以匹配它的巨大成本(尤其是推理成本——也就是用户使用模型时的资源消耗)。

  • 12 月 11 日,半导体专家 Dylan Patel 和他的 Semianalysis 团队给出了剧情的最终反转,他们的解释 将所有信息点串联到了一起:“Anthropic 确实完成了 Claude 3.5 Opus 的训练,而且表现良好,模型规模也符合预期…… 但 Anthropic 并未将其公开,而是用 Claude 3.5 Opus 来生成合成数据,并进行奖励模型训练,从而显著提升了 Claude 3.5 Sonnet 的质量,再加上用户数据。”

总结一下:Anthropic 确实训练了 Claude Opus 3.5,但因为它没到令人满意的程度,就弃用了这个名字。Dario 也希望在下一个训练版本中能提高结果,所以不愿给出确切发布日期。Bloomberg 也说它确实比旧模型更好,但优异度不足以匹配运维成本。Dylan 及其团队揭示,Sonnet 3.6 的提升离不开 Opus 3.5:后者被用于在内部生成合成数据,从而辅助前者大幅提高。

这可以简化为下面的关系图:


II. 更好,但也更小更便宜

用强大的、昂贵的模型去生成数据,来提升稍弱一档、但更经济(推理成本更低)的模型性能,这一做法被称为蒸馏(distillation)。这是业界常见的策略。通过这种方法,AI 实验室能让自家更小的模型取得远超依靠额外预训练才能带来的增强。

蒸馏有很多具体做法,这里就不展开了。你只需理解:一个强大的教师模型(teacher)可以让学生模型(student)从「[小,便宜,快] + 」进化为「[小,便宜,快] + 」。换言之,强模型就是金矿。Dylan 在文中解释了为什么 Anthropic 会把 Opus 3.5 用来蒸馏出 Sonnet 3.6:

“新的 Sonnet 跟旧版本相比,推理成本并没有显著增加,但性能却更好。既然从成本收益的角度看,发布 3.5 Opus 并不划算,那么不如借助 3.5 Opus 进一步训练 3.5 Sonnet,然后直接发布一款性能更好又不昂贵的模型。”

再回到成本问题:蒸馏可以在不显著增加推理成本的情况下增强模型性能,这正好解决了 Bloomberg 点出的主要问题。Anthropic 之所以不发布 Opus 3.5,一方面是因为它没有想象中惊艳;另一方面是因为它在内部用途(给别的模型当教师)反而更有价值。(Dylan 说这也是为什么开源社区能那么快追上 GPT-4——因为他们直接挖了 OpenAI 金矿里产出的“金子”。)

最令人惊讶的是什么?Sonnet 3.6 不仅仅是表现优秀,而且是达到了 SOTA(当前最先进)水平据称它比 GPT-4o 还强。也就是说,Anthropic 的中档模型凭借 Opus 3.5 的蒸馏(以及在 AI 节奏里不算短的五个月时间里其他改进)居然全面超越了 OpenAI 的旗舰产品。可见,“高成本”不再等于“高性能”。

“更大更好”的时代去哪儿了?OpenAI 的 CEO Sam Altman 曾警告说:这个时代已经结束。我也写过相关话题。当几家顶尖实验室对关键数据讳莫如深、将最宝贵的信息视为机密时,我们自然无法再依赖参数规模这个指标,也只能看模型的基准测试结果。OpenAI 最后一次正式公布模型参数规模还在 2020 年的 GPT-3(1750 亿参数)。到 2023 年 6 月,有传言称 GPT-4 可能采用专家混合(MoE)架构,参数量高达约 1.8 万亿。后来 Semianalysis 在 2023 年 7 月的详细分析中也证实 GPT-4 大约有 1.76 万亿参数。

直到 2024 年 12 月,又过了一年半之久,EpochAI 的研究员 Ege Erdil 估计 这一批最顶尖的模型——包括 GPT-4o 和 Sonnet 3.6——的规模比 GPT-4 小很多(尽管它们都已在基准测试中超过了 GPT-4):

“目前的前沿模型,如最早版的 GPT-4o 及 Claude 3.5 Sonnet,可能只有 GPT-4 大小的十分之一左右,GPT-4o 约 2000 亿参数,3.5 Sonnet 约 4000 亿。……当然,这种估算可能会有 2 倍的偏差,毕竟我的方法比较粗糙。”

他还详细阐述了在实验室不公布架构细节的情况下,自己如何得出这个数字。但对我们来说,关键点是:迷雾正在散去:Anthropic 和 OpenAI 最新的模型不仅性能更好,而且也比上一代更小、更便宜。我们已经知道 Anthropic 是如何用 Opus 3.5 蒸馏出 Sonnet 3.6 的,那 OpenAI 呢?他们又做了什么?


III. 推动 AI 实验室的力量是普遍的

有人也许会想:Anthropic 的蒸馏方式是因为 Opus 3.5 的训练效果低于预期,属于特殊情况。但事实是,这种情况并不特殊。Google DeepMind 和 OpenAI 也都提到他们在最近的训练中有相似的“不理想”情况。(“不理想”并不意味着模型变差了,只是没有预期中那么大幅度跃升。)至于背后的原因,对本文来说并不重要:可能是数据见顶、transformer 架构本身的局限,或是预训练规模定律逐渐趋于饱和…… 不管怎样,Anthropic 的处境放到行业里看,其实很具代表性。

再回头看看 Bloomberg 那句话:模型性能好不好,得结合成本来评判。而这在三大实验室身上都有体现。Ege 也解释了原因:ChatGPT/GPT-4 横空出世后,市场对生成式 AI 的需求暴增,这让各大实验室都难以应付,亏损不断攀升。相比训练的“一次性”成本,“推理”开销会随着用户数和使用量同步爆炸式增长。如果每周有 3 亿人在用你的 AI 产品,运维费用随时可能把你拖垮。

Anthropic 之所以将 Opus 3.5 蒸馏成 Sonnet 3.6,是为了兼顾用户体验与经济效益;同样的市场压力在 OpenAI 身上会有过之而无不及。蒸馏的妙处在于,它可以一箭双雕:通过发布小模型来解决推理成本过高的问题,并且因为大模型不公开,也就避免了“训练结果不佳”的负面影响。

Ege 认为 OpenAI 可能也尝试了另一种策略:过度训练(overtraining)。意思是:如果推理成本成为了主要支出,可以“给相对小一些的模型灌更多数据”,以弥补模型规模不足带来的性能损失。但问题是,过度训练已经越来越不可行了,优质训练数据即将被挖空。Elon MuskIlya Sutskever 最近几周都坦承了这一点。

所以最终还是得靠蒸馏。Ege 总结道:“我认为 GPT-4o 和 Claude 3.5 Sonnet 也很可能是从更大的模型蒸馏下来的。”

到这里,所有线索都指向:OpenAI 和 Anthropic 干的事情一样,都是(1)先训练并“雪藏”了一个大模型;(2)通过蒸馏把它的小弟模型升级到可商用的水准;(3)背后的理由是:表现不如预期,以及对成本的考量。但问题还在:Opus 3.5 到现在都没有公开,那与之对应的 OpenAI 大模型现在在哪?是不是还被藏在公司地窖里?你能猜猜它的名字吗……?


IV. 先行者必将披荆斩棘

之所以先从 Anthropic 的 Opus 3.5 说起,是因为这个案例的信息相对公开、翔实。然后我才借助蒸馏这个思路,把 Anthropic 的经验和 OpenAI 的情况联系起来,并探讨了两家都面临的共同压力。但还有一个新的障碍:作为领跑者,OpenAI 所遇到的难度可能比后发者 Anthropic 更大。

其中之一就是训练 GPT-5 的硬件要求。Sonnet 3.6 虽然能与 GPT-4o 媲美,但毕竟比 GPT-4o 晚了 5 个月才推出。我们有理由推测 GPT-5 可能是更高层次的东西:更强大,也更庞大,训练成本和推理成本都会更惊人。也许一次训练就要花费高达 5 亿美金。那用现有硬件就能行吗?

Ege 再次出马:能行,但如果要面对 3 亿用户提供推理服务,显然撑不住。然而只做训练的话,就轻松多了:

“从理论上讲,就算我们现在的硬件,也能维持比 GPT-4 大 50 倍、约 100 万亿参数的模型推理。不过,那可能意味着每 100 万个输出 token 的成本高达 3000 美元,输出速度在每秒 10~20 token。要想把这个模型投入公众使用,它必须能为客户带来极高的经济回报。”

也就是说,如果他们想把这种天价推理费用的大模型直接开放给大众,哪怕是微软、谷歌或亚马逊(OpenAI、DeepMind、Anthropic 背后的金主)都难以支撑。那该怎么办?很简单:只有在能“解锁巨大经济价值”时,才需要对外开放。要是达不到,就不开放。

他们会说:“我们训练出来的新模型比现有产品好,但还远不够好,撑不起如此巨大的推理成本。”(这语气听着耳熟吗?华尔街日报 上个月关于 GPT-5 的报道就是这个意思,跟 Bloomberg 对 Opus 3.5 的形容如出一辙。)

然后他们说模型表现不如预期(即便实际情况可能不差,只是达到预期所需的成本投入过高),把它留在公司内部做教师模型来蒸馏更轻量的小模型,再把小模型发布出去。我们得到 Sonnet 3.6、GPT-4o、o1,这些产品既便宜又好用;大家对 Opus 3.5、GPT-5 仍然充满期待,只是更焦急了。而他们利用这个流程,源源不断地挖出金矿。


V. Altman 先生,您肯定还有更多理由吧!

当我推理到这里时,还觉得有些疑问。虽然目前所有证据都指向对 OpenAI 来说,这样操作非常合乎逻辑,但“合理”并不必然等于“真实”。我无法给你最后的实锤,毕竟本文是猜测。然而我还能再加些佐证来增强说服力。

OpenAI 真的有更多理由这样做吗?除了“成绩不如预期”和“成本不断攀升”,还有别的动机吗?让我们看看 OpenAI 高层在公共场合谈到 GPT-5 时的言论。从他们屡次推迟 GPT-5 的发布中,能否看出一些端倪?OpenAI 毕竟是这场 AI 变革的旗手,Anthropic 则在它的阴影下发展。Anthropic 操作“雪藏大模型”不会引起太大反弹,但 OpenAI 呢?他们就没有代价吗?

既然提到代价,就要回到跟微软的合作上。众所周知,OpenAI 跟微软有一条 “AGI 条款” 被写进了 OpenAI 的架构说明。它列了五条管控准则,阐明了 OpenAI 公司与非营利组织及与微软的关系。第五条明确了 AGI 的定义:“能在大部分具有经济价值的工作中超越人类的高度自治系统”,一旦 OpenAI 董事会认定系统达到 AGI,“微软只对这之前的技术享有 IP 许可及商业合作条款,AGI 系统本身除外。”

很明显,双方都不想让这层合作破裂。AGI 条款虽然是 OpenAI 写的,但他们也不会乐意真的触发这个条款。而拖延发布可能是避开这点的一种方法。“不过 GPT-5 肯定算不上 AGI 吧”,你也许会这么想。但我告诉你另外一个几乎没人知道的事实:根据 The Information 的报道,OpenAI 和微软之间有一个“对 AGI 的秘密定义”,它并非学术概念,而是法律合同层面的条款:AGI = “能创造至少 1000 亿美元利润的 AI 系统”。

如果 OpenAI 以“还不成熟”为由,继续按下 GPT-5,不仅能控制推理成本、缓解公众对性能的争议,还能避免大家去怀疑它是否已经接近“能带来 1000 亿美元利润”的 AGI。退一步讲,如果他们确信 GPT-5 一年就能直接赚来 1000 亿美元,那他们也不介意触发 AGI 条款,跟微软分道扬镳。但在不确定是否真能解锁这么大经济价值的情况下,还是按兵不动更稳妥。

一直以来,外界对 OpenAI 不推出 GPT-5 的主要猜测是它没达到预想水平。但即使这个说法是对的,也很少有人想过,OpenAI 也许有更好的内部用途,而不是把它拿去赚订阅费。要知道,“做出一个优秀模型”跟“做出一个既优秀又能用来服务 3 亿用户的模型”是两码事。如果你做不到后者,就不做。如果你根本也不需要这么做,那就更没有必要了。他们之所以早期让公众用到最先进的模型,是因为他们需要海量用户数据。如今,他们不缺数据,也不怎么缺钱(那是微软的问题,不是他们的问题)。他们的目标是 AGI,之后是 ASI。他们想的是千秋功业。


VI. 这为何会改变一切

我们快到尾声了。我相信我已经提出了足够多的证据来得出一个扎实的推断:OpenAI 很可能已经在内部运行着 GPT-5,就像 Anthropic 有它的 Opus 3.5 一样。而且完全有可能 OpenAI 永远不会公开发布 GPT-5。如今大家衡量性能的基准已经变成了 o1/o3,而不再只是 GPT-4o 或 Claude Sonnet 3.6。随着 OpenAI 探索在推理阶段应用新的扩展方法(test-time scaling laws),GPT-5 要想碾压后续层出不穷的 o 系列(o1、o3、o4、o5……)已越来越难。另外,他们也不再特别需要我们的钱或数据。

继续训练新一代底层模型——GPT-5、GPT-6,以及未来更强的——对 OpenAI 来说,内部用途一直都有价值,但不一定拿来做产品卖。也许他们已经走向了下一阶段,只想在幕后利用这些大模型去生成更好的数据,迭代出更高阶的模型。就像一个隐居山林的高人,不直接下山跟我们见面,却在暗中培养弟子,而那座山就是他们的大型数据中心。无论我们看不看见这位“老隐士”,却都会感受到他那强悍的智慧所带来的影响。

即便 GPT-5 最终发布,这个事实其实也已经没那么重要了。如果 OpenAI 和 Anthropic 真正开启了某种递归自我改进(哪怕仍有人类在中间把关),那他们给公众用什么版本已经没那么关键了。他们会不断甩开我们,正如宇宙加速膨胀以至于遥远星系的光再也无法到达地球。

也许这就是他们能在短短三个月内,从 o1 飞速跃迁到 o3 的原因——以及今后迅速跃迁到 o4、o5 的原因。或许也解释了为何他们最近在社交媒体上如此兴奋,因为他们施行了一种全新的改良版运营模式。

难道你以为踏上 AGI 的征途,意味着你就能用上越来越强大的公开大模型?你以为他们会把每次成果都双手奉上让你随便用吗?当然不会。他们早就说过,每次模型升级都将让他们领先对手更远,直到没有人能追上。每一代新的大模型都是推进逃逸速度的引擎。已经飞到平流层的他们,恐怕只能跟你挥手作别。

至于他们是否会回到地面?那就看以后了。