AI 创业者需要学习《苦涩的教训》[译]

摘要:

  • 在历史上,通用方法总能在 AI 领域取胜。

  • 目前从事 AI 应用的创业者正在重蹈过去 AI 研究者的错误。

  • 更好的 AI 模型将催生通用型 AI 应用,同时,围绕 AI 模型的“套壳软件”价值将逐渐降低。


近期的 AI 进展让许多新“产品”可以解决各种“问题”。我在 YC 毕业生 Demo Day 上见证了这一点——一口气看了 100 多个路演,这些项目所面对的问题往往都很简单,能够用“受限”AI 来解决。然而,AI 真正的力量在于它的“灵活性”。当一个“产品”对 AI 的限制越少,性能往往越好,但当下的 AI“模型”还不够可靠,无法用来大规模打造这类几乎无约束的产品。事实上,AI 已经多次走过这个阶段,每次最终的胜利策略都一样。AI 创业者需要了解这段历史,否则我担心他们终会通过惨痛的经历来明白同样的道理。

在 2019 年,Richard Sutton 发表了著名的文章《The Bitter Lesson》(《苦涩的教训》),一开篇就说道:

“从 70 年的 AI 研究中可以得出的最大教训是:那些充分利用计算资源的通用方法,最终最有效,而且优势明显。”

他指出,在整个 AI 发展史上,研究者反复尝试通过融入人类领域知识来改进系统。但随后就出现了“苦涩”的部分:仅仅依靠更多计算能力的系统,最终会超越那些精心设计的解决方案。我们在语音识别、国际象棋和计算机视觉中都见过这一模式。如果 Sutton 今天再写一次文章,他也很可能把生成式 AI 加进列表里。他还警告:这种模式还没走到头。

“我们的领域还没有彻底吸取教训,因为我们还在重复同样的错误(……)。我们必须认识到,试图把‘我们认为我们是怎么思考的’植入系统,最终不会成功。苦涩的教训基于这样的历史观察:
1)AI 研究者常常尝试往智能体中加入知识,
2)这样做在短期内总是有用,而且对研究者来说也颇具满足感,
3)但从长远看会陷入瓶颈,甚至阻碍进一步发展,
4)而最后的突破总是来自相反的道路——基于不断扩大计算量。”

从 AI 研究的角度看,《苦涩的教训》所探讨的是“什么是更好”这一问题,比如国际象棋就是胜率高,语音识别就是词准确率。但本文关注的是 AI “产品”在应用层(见图 1)——这里的“更好”既包括“性能”,也包括市场的“采用度”。采用度我们放在第二章讨论,现在先聚焦产品性能:也就是产品能替代多少具有经济价值的工作。性能越好,就能处理更复杂的问题,释放的价值也就越大。

图 1:对不同类型 AI 产品的示意。在这篇文章里,我们讨论应用层的产品。

一般来说,AI“产品”就是在 AI“模型”之上包一层的“套壳软件”。要提升它们的性能有两条路:

  1. 通过工程努力:运用领域知识,在“套壳软件”中加入各种约束。

  2. 通过更好的模型:等待更强大模型的发布。

这两个方向都可以努力,但关键点在于:模型越来越强时,工程努力的价值就会缩水。目前由于模型本身错误不少,多花功夫改进套壳软件确实能有显著提升。但随着模型变得越来越可靠,这种情况会慢慢改变。到最后,你只需要把模型接上电脑,就能解决大多数问题——不需要复杂的工程设计。

图 2:在应用层构建 AI 产品时,随着工程努力不断投入以及更强模型的出现,工程努力的回报会不断递减。

上图展示了模型进步对工程努力价值的削弱效应。当前模型的缺陷还很明显,所以公司依然可以通过工程设计获得大量收益。我在 YC 毕业生 Demo Day 就看到了很多这样的案例。整体情况大体分成两拨:一是已经用简单问题在大规模生产环境落地的公司(目前还不多),二是针对稍复杂问题的公司。他们做得也不错,因为他们能做出概念验证,并证明这些目标通过足够的工程投入是可以达到的。

但这些公司面临的核心问题是:下一代模型发布后,会不会让所有的工程成果作废,从而摧毁他们的竞争优势?OpenAI 的 o1 模型发布就说明了这个风险。很多处在 AI 应用层的创始人都担心,因为他们投入了大量精力打磨 Prompt,以提高模型表现。但 o1 一发布,提示词调优的重要性就下降了。正如图 2 所示,o1 更聪明了,意味着这些公司先前工程上的优势也相应减少了。

从本质上看,所有的工程努力最终都是为了“限制”AI,减少其犯错。根据我对各种解决方案的观察,我把这类约束分成两个主要类型:

  • “专业性”(Specificity):衡量一个解决方案的集中程度。所谓“垂直”方案,指的是只针对某个特定问题而设计的套壳软件;而“水平”产品则可以处理各种不同类型的问题。

  • “自主性”(Autonomy):衡量 AI 的独立运作能力。根据 Anthropic 的说法,可以分成“工作流”(workflow)和“智能体”(agent)。在工作流中,大语言模型和工具是按固定代码路径工作;而在智能体中,模型可以自己控制流程,选择如何完成任务。

把这两种约束横纵坐标一放,我们就能得到一个分类框架:

垂直

水平

工作流

Harvey

ChatGPT

智能体

Devin

Claude computer-use

表 1:一些知名 AI 产品的分类。需要注意的是,ChatGPT 可能对每次对话都有一条预先设定的代码路径,因此更像工作流而非智能体。

假设某公司有个相同需求:商业分析师需要制作投资路演的幻灯片,我们来看看这四种类别是如何实现的:

  • 垂直工作流:一组固定的操作步骤。例如:先对公司数据库做 RAG 查询,再把结果送入一个小模型做摘要,然后交给更强的大模型提取关键数字并用计算器工具运算。模型会检查结果是否合理,最后将内容交给一个制图工具生成 PPT。每次执行都是这个流程。

  • 垂直智能体:让大模型自循环迭代处理,每次的输出都能变成下一步输入。它也能使用和工作流版本一样的工具,但自己决定何时用哪种工具,并一直循环到它认为结果达到质量标准。

  • 水平工作流:ChatGPT 等类似工具可以协助完成部分任务,但缺乏必要的专业性与自主性,无法真正从头到尾完成。

  • 水平智能体:Claude computer-use 可以直接访问公司常用软件。分析师给出自然语言指令后,智能体像人一样使用电脑,并根据需要随时调整方案。

目前 Demo Day 上出现的产品几乎都属于“垂直工作流”这一类。这很合理,因为现有模型的可靠性不足,其他做法难以落地。于是,哪怕有些问题本来就太复杂,不适合“垂直工作流”这种做法,大家还是硬把它按进这种框架里——因为这是唯一能在现有模型能力下获得相对可用结果的方式。虽然工程上的确能让产品变得更好,但其终究有极限。对于那些目前模型还无法解决的问题,最好的策略也许就是等待更强大的模型出现,然后再只做最少的工程投入。正如 Leopold Aschenbrenner 在《Situational Awareness》中所说:

“很可能这种‘苦活’所花的时间比等待模型解除封印还要长,也就是说,当那些‘可替代大量工作’的模型真正能落地时,此前对中间模型的充分挖掘和集成却仍未完成。”

这其实就是《苦涩的教训》再现:AI 研究人员过去反复地想通过工程设计来实现“尚可的性能”,但最终都被基于更多计算能力的更通用方案所淘汰。如今我们在 AI 产品的构建方式上看到了相似的情况。而通过将《苦涩的教训》的核心与“自主性”和“专业性”两方面进行对照,可以更清晰地发现这种对应关系:

《苦涩的教训》中的观察

自主性

专业性

1) AI 研究者常常试图把知识内置进智能体

开发者尝试做一个自主智能体,但发现它不够可靠,转而硬编码人类解决该任务时会走的工作流程。

开发者开始设计一个通用文档分析系统,但发现不够靠谱,就改为只分析财务报表,把特定指标和校验规则死写进系统。

2) 这在短期内总是有效,也让研究者有成就感

开发者发现这样能显著提高可靠性。

开发者发现将范围收窄后准确度提升,因为只需要处理有限类别的文档和指标。

3) 但从长远看会遇到瓶颈,甚至阻碍进步

一旦遇到流程设定之外的新情况,固定工作流就无法给出正确结果。

这个系统无法处理其他相关任务,比如分析并购文档或电话财报,要处理这些就得再做一套新的专用系统。

4) 最终的突破还是靠对计算能力的扩展

新模型发布后,自主智能体能够动态决定如何解决问题,能自我纠错、回退等,从而有更可靠的结果。

新模型能理解任何商业文档的整体信息,自动抓取关键信息,无论格式或类型如何,专用系统变得不再必要。

对于那些解决方案路径不明确的问题,更具“自主性”的产品会有更好表现;同理,当输入空间大且复杂时,“专业性”限制更少的产品将表现更好。

这是一个四篇系列文章中的第一篇,我们将探讨初创企业在 AI 领域的角色。历史向我们展示了一种趋势:与其依赖领域知识,不如依赖计算能力,而后者往往最终胜出。今天的 AI 产品在构建方式上,和过往经历有着惊人的相似之处。

我努力让本文以客观观察为主,但显然我的个人观点也难免会透露出来。在当前模型能力还不足时,用软件去弥补这些缺陷,好像是一场必然会输的战役,尤其是看着模型进步速度如此之快。正如 YC 合伙人 Jarred 在 Lightcone 播客中提到的:“那批最早的 LLM 应用(垂直工作流)大多被更新一代的 GPTs 淘汰了。”

Sam Altman 多次呼吁,创业者要去做那些会让他们“盼望”强大新模型的公司,而不是对新模型“心生恐惧”。不过,就我与许多 AI 应用层创始人的对话来看,他们的确对新模型的发布感到兴奋,但对他们自身的创业来说,我觉得他们不该太乐观。他们可能没看懂图 2 所展示的那条曲线:更好的模型有可能削弱而不是提升他们的竞争力。当然,这只是就产品性能而言——也就是产品能否更高效地解决更难的问题。下一篇文章会探讨另一个维度:市场采用度。毕竟,性能好不代表能在市场竞争中胜出。


附录 A:用统计学的观点看《苦涩的教训》

我们也可以用初级统计学来解释《苦涩的教训》。在建模时,你通常会面临一种平衡——要么让模型更“精确”(也就是高偏差),要么让它更灵活但也更难以预测(高方差)。《苦涩的教训》告诉我们,应该选更灵活的路线。

为什么?因为随着算力和数据的提升,我们完全可以让原本更“灵活”的模型也变得足够可靠。就好比打篮球时,你的投篮姿势虽不标准,但如果你有足够多的练习机会,最终也能达到稳定的命中率。反之,如果你的姿势过于僵化,一开始也许不错,但最终会被其内在的局限困住。

把这套逻辑映射到 AI 产品上,也同理:那些“垂直工作流”和各种“专业约束”,就好比在模型里加了大量刻板的规则,虽然短期更可靠,却限制了长期潜力。而让 AI 自行“发挥”,虽然当下看起来冒险,但能使模型在日后充分利用更强的能力自行寻求最优解。历史早已证明,对“灵活性”下赌注往往才是赢家。


附录 B:端到端(End-to-end) vs 特征工程(Feature Engineering)

图 1:传统机器学习需要人工进行特征工程,而深度学习可以端到端地学习,自己去发现数据中的重要特征。

传统机器学习需要人类去判断数据里哪些信息重要。比如输入是一张图像,需要先手动提取它的“特征”——可能是某些形状、颜色或某些属性;而深度学习则可以直接让模型自己去学习。

图 2:自动驾驶汽车的可视化图示,展示了特征提取的过程:系统识别并跟踪汽车、行人、车道线等特定对象。这是传统方法中将复杂问题拆分为更小的细分模块的典型做法。

以自动驾驶为例,可以有两种思路:

  1. 特征工程:先把摄像头看到的画面拆解成各种关键信息——车辆位置、车道线、行人的移动速度等。

  2. 端到端:直接把原始视频输入神经网络,让它自己学会如何驾驶。

特征工程的方式让人感觉更安全、可控,所以早期 AI 普遍采用这种方式。但正如 George Hotz 所言:“AI 的历史已经多次证明,特征工程终将被端到端替代和击败。”

图 3:Sholto Douglas 的一条推文

译注:“就像之前所有深度学习系统的经验一样,要把赌注压在‘端到端(end-to-end)’的方法上。”

换句话说,作者想强调的是端到端的策略往往能在长远上取得更大收益,而那些需要大量人工干预、事先人为设计特征或流程的方案最终会被更自动化、更通用的端到端模型所取代。这和文章中所提到的“《苦涩的教训》”如出一辙,历史多次证明,一味靠人工特征工程或在模型外设置繁琐约束,短期确实能提高模型表现,但从长远来看,伴随着模型能力的不断提升,反而会成为创新的阻力。所以作者用“Just like every other deep learning system - bet on end to end :)”这句话来呼应这个观点。

这点也直接对应到我们对 AI 产品的讨论:做垂直化工具就像是搞特征工程——你先把哪些信息重要都定死了。而当你限制模型的自主性时,其实和手动规定特征并无本质区别。虽然目前来看可靠性会更高,但历史告诉我们,在长期角力中,押注端到端的灵活策略往往才是胜者。

想了解更多后续内容,欢迎在 X 关注我。