AI 创业者需要学习《苦涩的教训》[译]
摘要:
在历史上,通用方法总能在 AI 领域取胜。
目前从事 AI 应用的创业者正在重蹈过去 AI 研究者的错误。
更好的 AI 模型将催生通用型 AI 应用,同时,围绕 AI 模型的“套壳软件”价值将逐渐降低。
近期的 AI 进展让许多新“产品”可以解决各种“问题”。我在 YC 毕业生 Demo Day 上见证了这一点——一口气看了 100 多个路演,这些项目所面对的问题往往都很简单,能够用“受限”AI 来解决。然而,AI 真正的力量在于它的“灵活性”。当一个“产品”对 AI 的限制越少,性能往往越好,但当下的 AI“模型”还不够可靠,无法用来大规模打造这类几乎无约束的产品。事实上,AI 已经多次走过这个阶段,每次最终的胜利策略都一样。AI 创业者需要了解这段历史,否则我担心他们终会通过惨痛的经历来明白同样的道理。
在 2019 年,Richard Sutton 发表了著名的文章《The Bitter Lesson》(《苦涩的教训》),一开篇就说道:
“从 70 年的 AI 研究中可以得出的最大教训是:那些充分利用计算资源的通用方法,最终最有效,而且优势明显。”
他指出,在整个 AI 发展史上,研究者反复尝试通过融入人类领域知识来改进系统。但随后就出现了“苦涩”的部分:仅仅依靠更多计算能力的系统,最终会超越那些精心设计的解决方案。我们在语音识别、国际象棋和计算机视觉中都见过这一模式。如果 Sutton 今天再写一次文章,他也很可能把生成式 AI 加进列表里。他还警告:这种模式还没走到头。
“我们的领域还没有彻底吸取教训,因为我们还在重复同样的错误(……)。我们必须认识到,试图把‘我们认为我们是怎么思考的’植入系统,最终不会成功。苦涩的教训基于这样的历史观察:
1)AI 研究者常常尝试往智能体中加入知识,
2)这样做在短期内总是有用,而且对研究者来说也颇具满足感,
3)但从长远看会陷入瓶颈,甚至阻碍进一步发展,
4)而最后的突破总是来自相反的道路——基于不断扩大计算量。”
从 AI 研究的角度看,《苦涩的教训》所探讨的是“什么是更好”这一问题,比如国际象棋就是胜率高,语音识别就是词准确率。但本文关注的是 AI “产品”在应用层(见图 1)——这里的“更好”既包括“性能”,也包括市场的“采用度”。采用度我们放在第二章讨论,现在先聚焦产品性能:也就是产品能替代多少具有经济价值的工作。性能越好,就能处理更复杂的问题,释放的价值也就越大。
图 1:对不同类型 AI 产品的示意。在这篇文章里,我们讨论应用层的产品。
一般来说,AI“产品”就是在 AI“模型”之上包一层的“套壳软件”。要提升它们的性能有两条路:
通过工程努力:运用领域知识,在“套壳软件”中加入各种约束。
通过更好的模型:等待更强大模型的发布。
这两个方向都可以努力,但关键点在于:模型越来越强时,工程努力的价值就会缩水。目前由于模型本身错误不少,多花功夫改进套壳软件确实能有显著提升。但随着模型变得越来越可靠,这种情况会慢慢改变。到最后,你只需要把模型接上电脑,就能解决大多数问题——不需要复杂的工程设计。
图 2:在应用层构建 AI 产品时,随着工程努力不断投入以及更强模型的出现,工程努力的回报会不断递减。
上图展示了模型进步对工程努力价值的削弱效应。当前模型的缺陷还很明显,所以公司依然可以通过工程设计获得大量收益。我在 YC 毕业生 Demo Day 就看到了很多这样的案例。整体情况大体分成两拨:一是已经用简单问题在大规模生产环境落地的公司(目前还不多),二是针对稍复杂问题的公司。他们做得也不错,因为他们能做出概念验证,并证明这些目标通过足够的工程投入是可以达到的。
但这些公司面临的核心问题是:下一代模型发布后,会不会让所有的工程成果作废,从而摧毁他们的竞争优势?OpenAI 的 o1 模型发布就说明了这个风险。很多处在 AI 应用层的创始人都担心,因为他们投入了大量精力打磨 Prompt,以提高模型表现。但 o1 一发布,提示词调优的重要性就下降了。正如图 2 所示,o1 更聪明了,意味着这些公司先前工程上的优势也相应减少了。
从本质上看,所有的工程努力最终都是为了“限制”AI,减少其犯错。根据我对各种解决方案的观察,我把这类约束分成两个主要类型:
“专业性”(Specificity):衡量一个解决方案的集中程度。所谓“垂直”方案,指的是只针对某个特定问题而设计的套壳软件;而“水平”产品则可以处理各种不同类型的问题。
“自主性”(Autonomy):衡量 AI 的独立运作能力。根据 Anthropic 的说法,可以分成“工作流”(workflow)和“智能体”(agent)。在工作流中,大语言模型和工具是按固定代码路径工作;而在智能体中,模型可以自己控制流程,选择如何完成任务。
把这两种约束横纵坐标一放,我们就能得到一个分类框架:
垂直 | 水平 | |
工作流 | Harvey | ChatGPT |
智能体 | Devin | Claude computer-use |
表 1:一些知名 AI 产品的分类。需要注意的是,ChatGPT 可能对每次对话都有一条预先设定的代码路径,因此更像工作流而非智能体。
假设某公司有个相同需求:商业分析师需要制作投资路演的幻灯片,我们来看看这四种类别是如何实现的:
垂直工作流:一组固定的操作步骤。例如:先对公司数据库做 RAG 查询,再把结果送入一个小模型做摘要,然后交给更强的大模型提取关键数字并用计算器工具运算。模型会检查结果是否合理,最后将内容交给一个制图工具生成 PPT。每次执行都是这个流程。
垂直智能体:让大模型自循环迭代处理,每次的输出都能变成下一步输入。它也能使用和工作流版本一样的工具,但自己决定何时用哪种工具,并一直循环到它认为结果达到质量标准。
水平工作流:ChatGPT 等类似工具可以协助完成部分任务,但缺乏必要的专业性与自主性,无法真正从头到尾完成。
水平智能体:Claude computer-use 可以直接访问公司常用软件。分析师给出自然语言指令后,智能体像人一样使用电脑,并根据需要随时调整方案。
目前 Demo Day 上出现的产品几乎都属于“垂直工作流”这一类。这很合理,因为现有模型的可靠性不足,其他做法难以落地。于是,哪怕有些问题本来就太复杂,不适合“垂直工作流”这种做法,大家还是硬把它按进这种框架里——因为这是唯一能在现有模型能力下获得相对可用结果的方式。虽然工程上的确能让产品变得更好,但其终究有极限。对于那些目前模型还无法解决的问题,最好的策略也许就是等待更强大的模型出现,然后再只做最少的工程投入。正如 Leopold Aschenbrenner 在《Situational Awareness》中所说:
“很可能这种‘苦活’所花的时间比等待模型解除封印还要长,也就是说,当那些‘可替代大量工作’的模型真正能落地时,此前对中间模型的充分挖掘和集成却仍未完成。”
这其实就是《苦涩的教训》再现:AI 研究人员过去反复地想通过工程设计来实现“尚可的性能”,但最终都被基于更多计算能力的更通用方案所淘汰。如今我们在 AI 产品的构建方式上看到了相似的情况。而通过将《苦涩的教训》的核心与“自主性”和“专业性”两方面进行对照,可以更清晰地发现这种对应关系:
《苦涩的教训》中的观察 | 自主性 | 专业性 |
1) AI 研究者常常试图把知识内置进智能体 | 开发者尝试做一个自主智能体,但发现它不够可靠,转而硬编码人类解决该任务时会走的工作流程。 | 开发者开始设计一个通用文档分析系统,但发现不够靠谱,就改为只分析财务报表,把特定指标和校验规则死写进系统。 |
2) 这在短期内总是有效,也让研究者有成就感 | 开发者发现这样能显著提高可靠性。 | 开发者发现将范围收窄后准确度提升,因为只需要处理有限类别的文档和指标。 |
3) 但从长远看会遇到瓶颈,甚至阻碍进步 | 一旦遇到流程设定之外的新情况,固定工作流就无法给出正确结果。 | 这个系统无法处理其他相关任务,比如分析并购文档或电话财报,要处理这些就得再做一套新的专用系统。 |
4) 最终的突破还是靠对计算能力的扩展 | 新模型发布后,自主智能体能够动态决定如何解决问题,能自我纠错、回退等,从而有更可靠的结果。 | 新模型能理解任何商业文档的整体信息,自动抓取关键信息,无论格式或类型如何,专用系统变得不再必要。 |
对于那些解决方案路径不明确的问题,更具“自主性”的产品会有更好表现;同理,当输入空间大且复杂时,“专业性”限制更少的产品将表现更好。
这是一个四篇系列文章中的第一篇,我们将探讨初创企业在 AI 领域的角色。历史向我们展示了一种趋势:与其依赖领域知识,不如依赖计算能力,而后者往往最终胜出。今天的 AI 产品在构建方式上,和过往经历有着惊人的相似之处。
我努力让本文以客观观察为主,但显然我的个人观点也难免会透露出来。在当前模型能力还不足时,用软件去弥补这些缺陷,好像是一场必然会输的战役,尤其是看着模型进步速度如此之快。正如 YC 合伙人 Jarred 在 Lightcone 播客中提到的:“那批最早的 LLM 应用(垂直工作流)大多被更新一代的 GPTs 淘汰了。”
Sam Altman 多次呼吁,创业者要去做那些会让他们“盼望”强大新模型的公司,而不是对新模型“心生恐惧”。不过,就我与许多 AI 应用层创始人的对话来看,他们的确对新模型的发布感到兴奋,但对他们自身的创业来说,我觉得他们不该太乐观。他们可能没看懂图 2 所展示的那条曲线:更好的模型有可能削弱而不是提升他们的竞争力。当然,这只是就产品性能而言——也就是产品能否更高效地解决更难的问题。下一篇文章会探讨另一个维度:市场采用度。毕竟,性能好不代表能在市场竞争中胜出。
附录 A:用统计学的观点看《苦涩的教训》
我们也可以用初级统计学来解释《苦涩的教训》。在建模时,你通常会面临一种平衡——要么让模型更“精确”(也就是高偏差),要么让它更灵活但也更难以预测(高方差)。《苦涩的教训》告诉我们,应该选更灵活的路线。
为什么?因为随着算力和数据的提升,我们完全可以让原本更“灵活”的模型也变得足够可靠。就好比打篮球时,你的投篮姿势虽不标准,但如果你有足够多的练习机会,最终也能达到稳定的命中率。反之,如果你的姿势过于僵化,一开始也许不错,但最终会被其内在的局限困住。
把这套逻辑映射到 AI 产品上,也同理:那些“垂直工作流”和各种“专业约束”,就好比在模型里加了大量刻板的规则,虽然短期更可靠,却限制了长期潜力。而让 AI 自行“发挥”,虽然当下看起来冒险,但能使模型在日后充分利用更强的能力自行寻求最优解。历史早已证明,对“灵活性”下赌注往往才是赢家。
附录 B:端到端(End-to-end) vs 特征工程(Feature Engineering)
图 1:传统机器学习需要人工进行特征工程,而深度学习可以端到端地学习,自己去发现数据中的重要特征。
传统机器学习需要人类去判断数据里哪些信息重要。比如输入是一张图像,需要先手动提取它的“特征”——可能是某些形状、颜色或某些属性;而深度学习则可以直接让模型自己去学习。
图 2:自动驾驶汽车的可视化图示,展示了特征提取的过程:系统识别并跟踪汽车、行人、车道线等特定对象。这是传统方法中将复杂问题拆分为更小的细分模块的典型做法。
以自动驾驶为例,可以有两种思路:
特征工程:先把摄像头看到的画面拆解成各种关键信息——车辆位置、车道线、行人的移动速度等。
端到端:直接把原始视频输入神经网络,让它自己学会如何驾驶。
特征工程的方式让人感觉更安全、可控,所以早期 AI 普遍采用这种方式。但正如 George Hotz 所言:“AI 的历史已经多次证明,特征工程终将被端到端替代和击败。”
图 3:Sholto Douglas 的一条推文
译注:“就像之前所有深度学习系统的经验一样,要把赌注压在‘端到端(end-to-end)’的方法上。”
换句话说,作者想强调的是端到端的策略往往能在长远上取得更大收益,而那些需要大量人工干预、事先人为设计特征或流程的方案最终会被更自动化、更通用的端到端模型所取代。这和文章中所提到的“《苦涩的教训》”如出一辙,历史多次证明,一味靠人工特征工程或在模型外设置繁琐约束,短期确实能提高模型表现,但从长远来看,伴随着模型能力的不断提升,反而会成为创新的阻力。所以作者用“Just like every other deep learning system - bet on end to end :)”这句话来呼应这个观点。
这点也直接对应到我们对 AI 产品的讨论:做垂直化工具就像是搞特征工程——你先把哪些信息重要都定死了。而当你限制模型的自主性时,其实和手动规定特征并无本质区别。虽然目前来看可靠性会更高,但历史告诉我们,在长期角力中,押注端到端的灵活策略往往才是胜者。
想了解更多后续内容,欢迎在 X 关注我。