生成式AI 新一幕:推理模型登场 [译]

生成式AI 新一幕:推理模型登场 [译]

智能推理时代的开始

在生成式AI革命的两年后,研究领域从“快速思维”——快速反应的预训练回答,向“慢速思维”——推理时的深度思考发展。这一转变正在催生一批全新的智能应用。

在我们撰写的《生成式AI:一个创造性的新世界》文章两周年之际,AI生态系统已经发生了显著变化,我们对未来的发展趋势有一些预测。

生成式AI市场的基础层正在与一批主要玩家(如微软/OpenAI、AWS/Anthropic、Meta和谷歌/DeepMind)达成平衡。只有具备经济实力和资本的公司仍在市场中占据主导地位。尽管竞争远未结束,并且在博弈论框架下不断升级,但市场结构正在逐步稳固,未来的AI预测模型将变得更加廉价且普遍。

随着大型语言模型(LLM)市场结构的稳定,新的前沿领域正在浮现。焦点正转向“推理层”的开发和扩展,在这个层面,“系统2”思维成为了主导。受AlphaGo等模型启发,这一层致力于赋予AI系统在推理时进行深度思考、解决问题的能力,超越单纯的模式匹配。新的认知架构和用户界面正在塑造这些推理能力如何与用户交互并呈现给用户。

这一切对于AI市场中的创业者意味着什么?对于现有的软件公司又意味着什么?作为投资者,我们看到生成式AI堆栈中最有前景的投资层在哪里?

在我们最新的关于生成式AI市场现状的文章中,我们将探讨基础层的整合如何为扩展这些高级推理和智能能力的竞赛奠定基础,并讨论具有新颖认知架构和用户界面的新一代“杀手级应用”。

永恒的“草莓”模型

2024年最重要的模型更新来自OpenAI的o1(曾名为Q*,也称为Strawberry)。这不仅重申了OpenAI在模型质量排行榜上的领先地位,也标志着现有架构的重大改进。更具体地说,这是第一个具有真正通用推理能力的模型,它通过推理时的计算实现了这一点。

这意味着什么?预训练模型通过在海量数据上进行下一个词的预测来工作,依赖于“训练时计算”。随着规模的扩展,基础的推理能力会逐步显现,但这种推理非常有限。那么,如果能直接教模型推理会怎样?这就是Strawberry模型的本质。所谓“推理时计算”,指的是让模型在给出答案前停下来思考,这需要在推理时投入更多的计算资源。这个“停下来思考”的过程就是推理。

AlphaGo 与 LLM 结合

当模型停下来思考时,它究竟在做什么?

首先,让我们回到2016年3月的首尔。这是深度学习历史上一个标志性时刻:AlphaGo与围棋传奇李世乭的对决。这不仅仅是一场AI与人类的对抗,这是AI第一次展示了真正的“思考”能力。

AlphaGo与之前的游戏AI系统(如深蓝)最大的不同在于,AlphaGo不仅依赖预训练来模仿人类,它还会在推理时停下来进行深度思考。AlphaGo的预训练阶段通过大约3000万步棋局数据进行学习,包括人类对局记录以及自我对弈生成的数据。然而,与简单地从预训练模型中输出直接反应不同,AlphaGo在推理时会通过模拟多个未来场景,评估这些场景的可能结果,并选择预期值最高的答案。思考时间越长,AlphaGo的表现越好。没有推理时的计算,模型无法击败最优秀的人类玩家,但随着推理时间的增加,AlphaGo最终超越了顶尖的人类棋手。

回到大型语言模型的世界。难点在于如何为生成的回答构建评分标准(即价值函数)。如果是在下围棋的场景中,你可以通过模拟整个棋局直到结束,来判断谁获胜,并计算下一步行动的预期值。如果是在编程场景中,你可以通过测试代码是否有效来打分。然而,如何评估文章的初稿呢?如何打分一份旅行计划或者一份长文档的关键术语总结?这就是当前方法在推理方面的难点之一,也是Strawberry模型在逻辑性较强领域(如编程、数学、科学)表现突出,而在开放性、非结构化领域(如写作)表现较弱的原因。

虽然Strawberry的具体实现细节严格保密,但核心思想包括围绕模型产生的思路链条进行强化学习。对模型思路的审核显示,随着推理时间的增加,出现了一些类似人类思维的现象。例如,o1模型展现了在遇到困境时能够回溯思考的能力,这是一种随着推理时间增加自发出现的特性。它还表现出以类似人类的方式思考问题的能力(如通过可视化球面上的点来解决几何问题),并且能够以新颖的方式解决问题(如在编程竞赛中采用人类通常不会选择的解法)。

推动推理时计算发展的新想法层出不穷(如奖励函数的新计算方式、缩小生成器与验证器之间差距的新方法等),研究团队正在努力提升模型的推理能力。换句话说,深度强化学习又变得热门起来,它正推动一个全新的推理层次的发展。

系统1 vs 系统2 思维

从预训练的本能反应(“系统1”)到更深层次的推理(“系统2”)是AI发展的下一个前沿。仅仅让模型掌握知识是不够的,它们还需要在实时决策时停下来,评估并进行推理。

可以将预训练理解为系统1层面。无论是AlphaGo通过数百万步围棋对局的预训练,还是大型语言模型通过互联网规模的文本进行训练,它们的任务是模仿模式——不论是人类游戏还是语言模式。然而,尽管模仿强大,但它并不等同于真正的推理。它无法在复杂的、新的场景中进行深思熟虑的思考,尤其是在样本外的情况下。

这就是系统2思维的用武之地,也是当前AI研究的焦点。当模型“停下来思考”时,它并不仅仅是在生成已学到的模式或基于过往数据作出预测,而是在产生多种可能性、考虑潜在结果并基于推理做出决策。

对于许多任务来说,系统1的反应已经足够了。例如,Noam Brown在我们最新的《训练数据》节目中指出,思考更长时间“不丹的首都是哪儿”并不会有帮助——你要么知道答案,要么不知道。在这种情况下,快速的模式识别完全足够。

但是,当我们面对更复杂的问题时——例如数学或生物学中的重大突破——快速的本能反应是不够的。这些进展需要深思熟虑、创造性问题解决,最重要的是需要时间。对于AI来说也是如此,要解决最具挑战性和意义的问题,它需要超越快速的样本内响应,花时间进行深度推理,这正是人类进步的关键。

新的扩展规律:推理竞赛已经开始

o1论文最重要的发现之一是揭示了一个新的扩展规律。

预训练大型语言模型(LLM)遵循一个广为人知的扩展规律:预训练时,投入的计算资源和数据越多,模型的表现越好。

而o1论文则揭示了一个全新的扩展维度:给予模型越多的推理时计算(或“测试时”计算),其推理能力就越强。

来源:OpenAI o1技术报告

当模型可以花数小时、数天甚至数十年进行思考时,会发生什么?我们是否能解开黎曼假设的谜团?我们能否回答阿西莫夫的最终问题?

这种转变将带我们进入一个从大规模预训练集群转向推理云的世界——即能够根据任务复杂度动态扩展计算资源的环境。

一个模型统治一切?

随着OpenAI、Anthropic、谷歌和Meta不断扩展它们的推理层并开发出越来越强大的推理系统,未来是否会出现一个模型统治一切的局面?

在生成式AI市场的初期,有人预测某个模型公司会变得如此强大,以至于最终吞并所有其他应用。然而,这一预测在两个方面都被证明是错误的。

首先,模型层面竞争激烈,最新技术能力不断被超越。尽管存在某家公司通过广泛的自我对弈实现持续自我改进并取得突破性发展的可能性,但目前我们没有看到任何证据。相反,模型层面是激烈竞争的战场。例如,自上次开发者日以来,GPT-4的价格下降了98%。

其次,除了ChatGPT之外,绝大多数模型未能在应用层面成为爆款产品。现实世界非常复杂,顶尖研究人员并不热衷于深入研究每个垂直领域的端到端工作流程。对于他们而言,开发到API层是合理的做法,接下来由开发者来应对现实世界中的复杂性。这对于应用层来说反而是好消息。

复杂的现实世界:定制认知架构

科学家规划和执行任务的方式与软件工程师的方式大不相同。而且,即便是软件工程师,在不同公司中的工作方式也可能大相径庭。

尽管研究实验室在通用推理领域不断取得突破,但我们仍然需要特定领域或应用场景中的推理能力,才能交付实用的AI代理。复杂的现实世界需要大量领域和应用特定的推理能力,这些能力无法通过单一的通用模型高效编码。

这里引入了认知架构的概念,认知架构是指系统思考的方式:代码与模型的交互流程,用以处理用户输入并执行操作或生成响应。

例如,Factory公司的每个“机器人”产品都有定制的认知架构,模拟人类思考某一特定任务的方式,比如审查代码请求或编写并执行迁移计划,将服务从一个后端迁移到另一个。Factory的机器人会分解所有依赖项,提出相关代码修改,添加单元测试,并邀请人类进行审查。获得批准后,机器人会在开发环境中运行这些更改,并在所有测试通过后合并代码。这个过程类似于人类处理任务的方式——分解为一系列离散的任务,而不是给出一个通用的、黑箱式的答案。

应用层的现状如何?

设想一下,如果你想在AI领域创业,你会瞄准堆栈的哪一层?你是否想在基础设施层竞争?祝你好运,因为你将面对NVIDIA和大型云服务商的竞争。你是否想在模型层竞争?同样祝你好运,因为你将与OpenAI和马克·扎克伯格抗衡。你是否想在应用层竞争?哦,这听起来确实有点可行!

虽然基础模型非常强大,但它们也充满混乱。主流企业无法轻松处理黑箱模型、幻觉现象和复杂的工作流程。普通消费者面对一个空白的提示框时,往往不知道要问些什么。这些问题为应用层带来了机会。

两年前,很多应用层公司被嘲笑为“只是GPT-3的套壳”。但如今,这些套壳已被证明是构建持久价值的有效方式。曾经的“套壳”已经进化为“认知架构”。

应用层的AI公司不仅仅是基础模型上的用户界面。事实远不止如此。这些公司通常搭建了复杂的认知架构,往往包括多个基础模型,并在其上设置了路由机制,结合向量和/或图数据库实现检索增强生成(RAG),并配有防护机制以确保合规性,还融入了模仿人类推理的工作流程逻辑。

服务即软件

云计算的转型源自软件即服务(SaaS)。软件公司转型为云服务提供商,这是一项价值3500亿美元的市场机会。如今,随着AI推理能力的发展,AI的转型正在向“服务即软件”方向迈进(service-as-a-software),即软件公司将人工劳动转化为软件。这意味着可服务的市场不再是软件市场,而是规模以“万亿美元”计的服务市场。

什么是“出售工作”?Sierra就是一个很好的例子。B2C公司将Sierra集成到自己的网站上,用于与客户沟通。Sierra的任务是解决客户问题,每解决一个问题,Sierra就获得一次报酬。这种模式下没有所谓的“用户数”概念。客户有一项任务需要完成,Sierra负责完成它,并据此获得相应报酬。

这正是许多AI公司追求的方向。Sierra的优势在于它具有“优雅的失败模式”,即如果AI无法解决问题,问题会升级到人工客服处理。然而,并非所有公司都有这种幸运的设计。一种新兴的模式是首先以“副驾驶”的形式部署AI(即人类在工作流程中参与),通过这种方式逐步赢得信任和表现机会,最终升级为“自动驾驶”(即无需人类参与)。GitHub Copilot就是这种模式的一个典型例子。

译注:

  • Sell work: 这里指的是AI公司根据完成的具体工作或任务收费,而不是像传统的软件公司按“席位”或“用户数量”收费。换句话说,客户为AI系统实际完成的工作成果付费,而不是为软件的使用权付费。

  • Copilot: 在这种模式下,AI作为“副驾驶”,与人类协同工作。AI协助人类完成任务,但人类仍在监督和决策过程的关键环节中参与。这种模式通常用于初期,AI需要人类的介入,逐渐证明其能力,之后可能升级为全自动的“自动驾驶”模式。

  • Human-in-the-loop: 这是指在人机协作过程中,人类仍然参与到AI的工作流程中,特别是在AI无法独立处理复杂任务时。AI在执行任务时,某些关键决策仍由人类做出,确保系统的准确性和安全性。

新一代智能应用的出现

随着生成式AI推理能力的提升,新一代智能应用公司正在崭露头角。

这些应用层公司的形态与传统的云计算公司有显著不同:

  • 云计算公司瞄准的是软件盈利领域,而AI公司则锁定的是服务盈利领域。

  • 云计算公司销售软件(按“席位”收费),AI公司则销售工作成果(按“结果”收费)。

  • 云计算公司倾向于自下而上的低摩擦分销,而AI公司则越来越采用自上而下的高接触、高信任交付模式。

在知识经济的各个领域,我们正在看到一批新的智能应用公司涌现。以下是一些例子:

  • Harvey:AI律师

  • Glean:AI工作助手

  • Factory:AI软件工程师

  • Abridge:AI医疗文书助手

  • XBOW:AI渗透测试专家

  • Sierra:AI客户支持代理

随着推理成本的下降,这些服务的边际成本也在降低,这使得这些智能应用公司得以扩展,并创造出新的市场。

以XBOW为例。XBOW正在开发一款AI渗透测试专家。渗透测试是模拟网络攻击,以帮助企业评估其安全系统。在生成式AI出现之前,企业仅在有限情况下(如需要符合合规要求时)聘请渗透测试人员,因为人工渗透测试成本高昂,这是一项由高技能人员执行的手动任务。然而,XBOW已经展示了基于最新推理型大型语言模型的自动化渗透测试,其性能可与最优秀的人类渗透测试专家相媲美。这不仅扩大了渗透测试市场,还使得各类企业可以持续进行渗透测试,无论其规模大小。

这对SaaS领域意味着什么?

今年早些时候,我们与有限合伙人(LP)会面时,他们的首要问题是:“AI的转型是否会颠覆现有的云计算公司?”

我们的初步答案是“不太可能”。初创公司和传统公司之间的竞争通常是一场赛跑,初创公司专注于建立分销渠道,而传统公司则专注于产品开发。关键问题是,那些拥有创新产品的年轻公司能否在传统公司开发出类似产品之前抢占市场?由于AI的许多核心技术来自基础模型,我们的默认假设是:传统公司会安然无恙,因为这些基础模型对他们和初创公司都一样可用,而且他们在数据和分销方面具有先天优势。对初创公司的主要机会不在于取代传统软件公司,而是开辟自动化工作的新领域。

然而,随着时间推移,我们开始有所动摇。参见上文提到的认知架构。将模型的基础能力转化为引人注目的、可靠的端到端商业解决方案需要大量工程投入。如果我们低估了“AI原生”意味着的颠覆性呢?

二十年前,本地软件公司曾对SaaS持怀疑态度。他们认为:“我们也可以通过互联网运行自己的服务器,提供这些服务!”概念听起来简单,但实际上,随后却是一场彻底的商业模式变革。工程和产品开发(EPD)从瀑布式开发转向敏捷开发和A/B测试。市场推广(GTM)从自上而下的企业销售转变为自下而上的产品驱动增长(PLG)。商业模式从高价产品和维护费转变为高净增长率(NDR)和基于使用量的定价。最终,极少数本地软件公司成功完成了转型。

如果AI带来类似的变革呢?AI的机会是否既在于销售工作成果,也在于取代现有的软件?

以Day.ai为例,我们已经看到了未来的雏形。Day是一款AI原生的CRM系统。系统集成商为Salesforce的配置赚取了数十亿美元。而Day只需访问用户的电子邮件和日历,并通过一个简单的问卷,就能自动生成一个完全符合业务需求的CRM系统。虽然它目前还缺乏所有附加功能,但这种自动生成且无需人工操作的CRM,已经让许多人选择了切换。

投资方向

作为投资者,我们的精力投入在哪里?资金又流向了哪些领域?以下是我们的简要见解。

基础设施

这是超大规模企业的领域,其推动力更多来自博弈论行为,而非微观经济学。对风险投资者而言,这不是理想的投资方向。

模型

这同样是超大规模企业和财务投资者的领域。超大规模企业用资产负债表换取收入,投资的资金最终会回流到其云计算业务。财务投资者则受到了“科学惊叹”效应的影响——这些模型的确令人惊叹,这些团队也非常出色,经济效益暂且搁置一旁。

开发者工具和基础设施软件

对于战略投资者来说,这一层可能不太有吸引力,但对于风险投资者而言却非常具有潜力。在云计算转型期间,约有15家公司在这一层面达到了10亿美元的收入规模。我们认为,AI转型中,这一层同样潜力巨大。

应用

这是风险投资者最感兴趣的层面。在云计算转型期间,约有20家应用层公司达到了10亿美元收入;在移动互联网转型期间,另有20家公司达到了这一规模。我们认为,AI转型过程中,类似的情况也会再次发生。

结语

在生成式AI的下一阶段,我们预计推理研究的成果将迅速影响到应用层,而且这些变化将非常迅速且深远。到目前为止,大多数认知架构都使用了巧妙的“解锁”技术;现在,随着这些能力深度嵌入模型,我们预计智能应用将变得更加复杂和强大,并且这一进展会非常迅速。

回到研究领域,推理及推理时计算将在未来相当长的一段时间内继续成为研究的核心主题。随着新的扩展规律的出现,推理竞赛已经开始。不过,在特定领域内,收集真实世界数据并构建特定应用场景的认知架构依然是一个挑战。这也是“最后一公里”应用提供商在解决现实世界复杂问题中可能具有优势的原因。

展望未来,像Factory公司开发的多智能体系统可能会逐步普及,这类系统可以模拟推理和社会学习过程。一旦AI能够执行复杂的工作任务,我们可以设想一个由AI“工人”组成的团队,将能够完成更多的工作。

我们所有人都在期待生成式AI的“第37步”,就像AlphaGo在与李世乭对弈的第二局中展现出的超人表现一样——这将标志着AI系统在独立思考能力方面的重大突破。虽然这不意味着AI真正“觉醒”(AlphaGo并没有觉醒),但它意味着我们已经成功模拟出了感知、推理和行动的过程,使得AI能够以全新且有用的方式进行探索。这可能是通用人工智能(AGI)的开始,如果真是如此,它不会是单一的事件,而是科技发展的下一个阶段。