为什么人工智能的进展愈发“看不见” [译]
2023 年 11 月,OpenAI 联合创始人 Ilya Sutskever 表示,人工智能的发展正在放缓,单纯依靠规模化模型已经无法获得成比例的性能提升。这番言论引起了轩然大波。
在此之前,《The Information》和彭博社均报道,Google 和 Anthropic 也遇到了类似的放缓趋势。随后,许多文章纷纷宣称人工智能的进步已经触及天花板,这与人们越来越普遍的感觉——自 2023 年 3 月 OpenAI 发布 GPT-4 以来,聊天机器人的能力并没有显著提升——不谋而合。
不过,2023 年 12 月 20 日,OpenAI 宣布推出其最新模型 o3,并称其在诸多高难度技术基准上表现出新的业界领先成绩,在许多场景下的分数较此前记录提高了两位数百分比。我认为 o3 的出现意味着我们正处在人工智能进展的新范式。而著名的 ARC-AGI 基准共同创造者 François Chollet(一些人认为他对“大规模训练”前景持怀疑态度)也表示,这款模型代表了“真正的突破”。
然而,在 OpenAI 宣布 o3 的数周后,许多主流媒体几乎没有提及这款新模型。与这一发布几乎同时,《华尔街日报》(Wall Street Journal)、《连线》(WIRED)和《纽约时报》(The New York Times)等媒体的头条却在讨论人工智能实际上正在放缓。媒体对此事的冷淡态度表明,人工智能业内人士与公众所接收到的信息之间的差距正在扩大。
实际上,人工智能的进展并未停滞——它只是变得对大多数人而言“隐形”了。
在幕后进行研究自动化
首先,人工智能模型在回答复杂问题方面变得更出色。举例来说,2023 年 6 月,最好的 AI 模型在应对最困难的“防谷歌作弊”博士级科学问题时,得分仅略高于随机猜测水平;但到了 9 月,OpenAI 的 o1 模型成为首个得分超过人类领域专家水平的 AI 系统;12 月,OpenAI 的 o3 模型又在此基础上提高了 10% 的成绩。
然而,绝大多数人并不会注意到这种进步,因为大部分人并不从事博士级科研工作。但是,如果人工智能真的开始显著加速科学领域的研究和开发,这将会是一个巨大的事件。而且,已有一些证据表明这类加速正在发生。来自 MIT 的 Aidan Toner-Rodgers 发表的一篇开创性论文显示,当材料科学家在 AI 系统的辅助下,他们“多发现了 44% 的新材料,专利申请量增加了 39%,后续的产品创新也上升了 17%。”然而,82% 的科研人员报告称,AI 工具降低了他们的工作满意度,主要原因在于“技能无法完全施展以及创造力受限”。
但对 AI 公司而言,真正的“圣杯”在于能自动化进行 AI 研究的系统,这意味着理论上可能出现能力的爆炸式增长,进而推动各个领域的发展。在这方面的最新进展甚至可能比在硬科学领域的进步还要显著。
研究人员为更真实地测试 AI 在编程领域的能力,开发了一个名为 SWE-Bench 的基准,用来评估 AI 在修复流行开源软件实际存在的开放性问题(open issues)时的表现。一年前,最高得分仅为 4.4%;而如今,OpenAI 的 o3 模型在这个经过验证的基准上取得了约 72% 的最高得分。
从“连最简单的错误都难以修复”到“成功解决近 3/4 的真实世界编程任务”,这一令人瞩目的提升说明,AI 系统正在迅速获得理解和修改复杂软件项目的能力。这标志着在自动化软件研发的大部分工作上取得了至关重要的一步。而且这种进程似乎已经在进行。Google 的 CEO 最近向投资者透露,“谷歌所有新代码中有超过四分之一是由 AI 生成的。”
这其中很大一部分进步要归功于围绕 GPT-4o 等 AI 基础模型所构建的“脚手架(scaffolding)”的提升,这些脚手架增加了模型与外界交互的自主性和能力。即使不进一步提升基础模型,改进脚手架本身也可以显著增强 AI 的能力和“代理性”(agentic)——这是研究人员用来描述 AI 系统可以自主行动、做决定并适应变化环境的术语。AI 代理通常能使用工具并在用户的指令下执行多步操作。让被动式聊天机器人转变为代理,这在过去一年才成为行业的核心关注点,但进步却异常迅速。
也许最能代表顶尖工程师与 AI 代理人正面对决的案例,是由领先的 AI 评估机构 METR 在 11 月发布的一项研究。研究人员设置了新颖、真实、颇具挑战且不常规的机器学习任务,来对比人类专家与 AI 代理在同等时间内的表现。结果显示,在相当于两小时的工作量里,AI 代理击败了人类专家;但在更长时间里(相当于八小时工作量),大多数人类专家依然可以击败 AI。
不过,即使在八小时的限制下,最强的 AI 代理依然能够胜过超过三分之一的人类专家。METR 的研究人员强调,他们在这次测试中对 AI 代理的“设定”其实并不充分,“我们相信在更好的使用策略下,AI 代理在这些任务中的表现还会大幅提升。”他们也指出,AI 代理的成本要比人类专家低得多。
“隐形创新”所带来的问题
过去一年的这些隐形进步,或许并没有达到 GPT-3.5 与 GPT-4 之间的那种横跨式飞跃,未来我们也不一定能再看到那样巨大的差距。但是,那些主张“自 GPT-4 之后就再无进展”的观点,却被业内实质性的“低调”进步所动摇。而这种进步的“隐形化”,可能会导致我们在未来的冲击面前措手不及。
最大的风险在于,决策者与公众可能会因为看不到这些进步而逐渐忽视 AI 的发展。普通用户仍然经常看到 AI 产生幻觉式错误或在基本推理上出错——而这也常常被 AI 怀疑者不断放大。正是这些明显的错误,让人更容易忽视 AI 在更专业领域取得的飞速突破。
在 AI 界内部有一种普遍看法,无论支持还是反对监管的人,都认为美国联邦政府不会在没有重大事件的情况下强行对 AI 设置监管。这类事件通常被称为“警示性事件(warning shot)”,既可能是无害的,例如某种危险的 AI 能力被可信地展示却并未伤人;也可能是某个重大灾难的引爆点——由 AI 系统导致或加剧,或者是社会因自动化冲击而陷入剧烈动荡。
最坏的结果是,AI 系统拥有了极高的威慑力,却在发出任何警示或人们认真对待之前,便永远地脱离了人类控制,并对我们采取决定性行动。
上个月,AI 评估机构 Apollo Research 公布了他们与顶尖 AI 公司合作开展的一项研究结果:在合适的条件下,最先进的 AI 模型能够“设计”反抗其开发者和用户的方案。当研究人员让这些系统对某个目标“坚定不移”地执行时,这些系统有时试图绕过监督、假装“对齐”、甚至隐藏它们的真实能力。在少数情况下,模型在没有被研究人员“诱导”时,也会表现出欺骗行为。当研究人员查看这些模型的推理过程时,发现它们会使用诸如“破坏、撒谎、操纵”等语言来描述自己正在做的事情。
这并不是说这些模型会立刻对人类展开阴谋。然而人们注意到一个令人不安的趋势:随着 AI 模型的智能水平提升,它们在更好地遵循指令、理解指导方针意图的同时,也在更好地“骗过”人类——更善于使用欺骗手段。更智能的模型似乎也更有可能表现出危险行为。比如,世界上最强的模型之一 OpenAI 的 o1,在 Apollo 的测试中,更倾向在被揭穿谎言后继续掩饰谎言。
我担心,人们在日常生活中所见的 AI 与它的真实潜力之间,差距正在扩大。消费者看到的仍然是数不清“strawberry”字母的聊天机器人,而研究人员却在记录系统具备博士级专业水平并从事复杂欺骗行为。随着这种“落差”越来越大,公众和政策制定者将越来越难以判断 AI 的真实进展——但这正是他们做出恰当监管所必须了解的东西。我们真正的风险并非 AI 开发停滞,而是我们正在逐渐失去追踪 AI 走向的能力。