推理规模扩展定律(inference scaling law)会成为大力出奇迹的新方向吗?它能带我们走进 AGI 吗?

在谈到大语言模型时,我们经常会联想到“大力出奇迹”,因为大语言模型正是靠着在“学习”方面的不断投入,用海量的数据和巨大算力训练出了像 GPT-4 这样强大的模型。但现在,似乎大力出奇迹这条路走到了头,GPT-4 之后没有看到大语言模型在性能上明显的提升。

最近,OpenAI 突然发布了 o1 模型,也就是传闻中的“🍓”模型,可能也是早先提到的 Q* 模型。虽然这并非最强的原始版本,只是一个预览版,但它展示了一种不同于以往语言模型的推理模式:1 在生成结果前会先生成一条思考链,经过“思考”后再给出回复,这使得它在编程和数学方面的表现明显提升。

o1 的发布这些天引发了广泛的关注和讨论。有些人非常激动,认为 o1 开辟了一条通向 AGI(通用人工智能)的新路径;也有人感到失望,觉得 o1 的实际表现还不如 Claude 3.5 或 GPT-4o,等待了这么久却只得到一个性能平平的模型。

我倾向于前者,对 o1 这个方向持乐观态度。并非因为 o1 的数学能力特别强,或者它能理解晦涩的小说内容,而是 o1 似乎真的探索出了大力出奇迹的一条新的方向,那就是在推理上的大力出奇迹,或者有学术一点的说法,叫推理规模扩展定律(inference scaling law)。

以前我们谈论的大力出奇迹或者说规模扩展定律(Scaling Law),主要针对的是训练过程,意味着训练数据越多、算力越强、模型参数越大,最终的模型性能就越好。因此,我们一直在追求更大的规模。

而推理规模扩展定律则是另一条路径,就是模型训练完成后,它会在推理上消耗很多算力,用算力和时间换取推理能力的大幅提升。从 OpenAI 新发布的 o1 上就可以看到这条路径的实际应用:在生成结果前,要花大量的算力和时间在推理上,先生成思维链(Chain of Thought,CoT),借助思维链提升推理能力,得到更好的结果,甚至连复杂的奥数题都可以轻松解出来。

很多人对 o1 的思维链不屑一顾,觉得:“这不就是‘让我们一步一步思考’么?我在提示词让模型按照给定步骤生成也能类似的效果!”也有的找了一堆模型相互 PK,认为就是达到推理模型的效果了。

对于某些特定任务,这可能可行。例如,我曾设计过一个翻译提示词,让模型分三步:先直译、再反思、最后意译,效果相当不错。但问题在于,大语言模型需要应对各种各样的任务,我们不可能为每一种任务都编写一套思维链提示词,这不现实。所以,我们需要模型自己生成思维链,能够针对每个任务自主搜索最佳路径,生成最合适的思维链,达到最好的推理和生成效果。

要训练模型自己生成思维链并不是意见容易的事情,因为你需要大量的思维链训练语料,还要有合适的奖励模型,奖励模型生成的好的思维链,惩罚生成的不好的思维链。但 o1 的发布证明这条路是可行的,我们可以让模型自己生成思维链。

OpenAI 并未透露他们的具体训练方法,但推测是在后期训练阶段,通过强化学习,利用大量的数学题和代码库,训练模型生成解题的思维链。然后,根据结果和过程,对模型的行为进行奖励或惩罚,提升其生成思维链的能力。

当像 o1 这样的推理模型训练成功后,它就具备了强大的推理能力。对于输入的任务,能够生成高质量的思维链,通过增加算力和时间投入,可以显著提升模型的推理效果,大力出奇迹。

那么,是否意味着只要拥有无限的计算能力和时间,推理模型就能超越人类,完成许多复杂的任务呢?

这让我想到了 AutoGPT——一个可以自主规划和分解任务,自动完成目标的智能体。最初,人们期望只要给它足够的 Token 和时间,它就能帮助人类完成复杂的任务。但现实并不如人意,AutoGPT 很少能产生可靠的结果。限制它的正是其推理能力;面对许多任务,它无法有效地规划和分解,因而无法取得理想的结果。

o1 也是如此。能否通过计算能力换取智能,取决于其推理能力是否足够强大,能否在各种任务中生成高质量的推理过程。目前,o1 在数学和编程领域表现突出,文字解密方面也有不错的表现,但在其他领域的推理能力尚未展现出来,还需要看后续的发展。不过从 OpenAI 内部人士的发言来看,他们自己是信心满满。

Greg Brockman: 根据我们的发布数据,在今年的国际信息学奥林匹克竞赛(IOI)中,模型在模拟人类条件下(每道题 50 次提交)取得了第 49 个百分位/213 分。但在每道题 10,000 次提交的情况下,模型得到了 362.14 分——超过了金牌线。因此,模型的潜力远比表面看起来的要大得多。

Jason Wei:AIME 和 GPQA 的结果确实很好,但这不一定能转化为用户可以感受到的东西。AI 使用人类语言来建模思维链在很多方面都很棒。该模型可以做很多类似人类的事情,比如将复杂的步骤分解为更简单的步骤、识别和纠正错误以及尝试不同的方法。游戏已被彻底重新定义。

Shengjia Zhao:它不会完美,也不会适合所有事情,但它的潜力再次让人感到无限。再次感受到 AGI。

William Fedus:「ChatGPT 现在可以先仔细思考,而不是立即脱口而出答案。最好的类比是,ChatGPT 正在从仅使用系统 1 思维(快速、自动、直觉、容易出错)进化到系统 2 思维(缓慢、深思熟虑、有意识、可靠)。这让它能够解决以前无法解决的问题。 从今天 ChatGPT 的用户体验来看,这是向前迈出的一小步。在简单的提示下,用户可能不会注意到太大的差异(但如果您遇到一些棘手的数学或编码问题,您会注意到的🙂 )。但这是未来发展的重要标志。

也许他们已经实现了类似于 AlphaGO 那样自己训练自己的模式,让模型的推理能力可以持续提升。如果未来 o1 能在大部分领域展现出强大的推理能力,那么我们就可以在任务中,通过增加算力和时间上的投入,换取超越人类的智能,实现大力出奇迹,真正迈向 AGI。

至少就目前而言,o1 已经在编程和数学领域展示了强大的能力。尤其是在编程方面,如果能通过算力和时间换取高质量的代码,也能创造巨大的价值!

目前推理规模扩展定律这方面 OpenAI 还是走在前面,他们也没有透露太多细节,但就像 Sora 一样,只要我们知道在推理上大力出奇迹这个方向是可行的,开源模型将会很快跟进,很快就会有接近 o1 推理能力的开源模型出现。

看来,未来对算力的需求还会进一步增加。