Demis Hassabis:AGI 还缺什么,智能体到底行不行,下一个科学突破长什么样

作者:

宝玉

Demis Hassabis:AGI 还缺什么,智能体到底行不行,下一个科学突破长什么样

Demis Hassabis 是 Google DeepMind 的 CEO,也是 Isomorphic Labs 的 CEO。他在棋手神童和游戏开发者的身份之外,拿了认知神经科学的博士学位,研究海马体和记忆的工作方式。2024 年,他因为 AlphaFold 的工作获得诺贝尔化学奖。

这次他做客 Y Combinator 的 How to Build the Future 直播,和 YC CEO Garry Tan 聊了四十分钟。几个核心话题:当前 AI 范式距离 AGI 还差什么、智能体的真实水平、AI 在科学领域的突破模式,以及给深科技创业者的建议。

原始视频:https://www.youtube.com/watch?v=JNyuX1zoOgU

原始标题:Demis Hassabis: Agents, AGI & The Next Big Scientific Breakthrough

要点速览

  • Hassabis 认为当前范式(预训练+RLHF+ 思维链)会是 AGI 架构的一部分,但有 50% 的概率还需要一两个尚未发现的关键突破,持续学习、长程推理和记忆是三个未解问题
  • 百万 token 上下文窗口听起来很大,但处理实时视频时只够录 20 分钟,当前把所有东西塞进上下文窗口的做法是“用胶带糊住的临时方案”
  • AlphaGo 和 AlphaZero 时代的技术(蒙特卡洛树搜索等)正在被重新引入当代基础模型,Hassabis 认为未来几年的进步将大量来自这些旧想法的规模化应用
  • 他用下棋来测试 Gemini 的推理能力,发现模型会识别出一步是错棋,找不到更好选择后又回去走那步错棋,这种“缺乏自省”是当前推理系统的核心缺陷
  • 创造力的真正测试是能否从一段高层描述中发明围棋这个游戏本身,AlphaGo 下出 Move 37 级别的创造力还远远不够
  • 完整虚拟细胞大约还需要 10 年,关键瓶颈是无法在不杀死细胞的情况下对活细胞进行纳米级分辨率成像
  • 他给创业者的建议:如果你的 AGI 时间线是 2030 年,深科技创业通常需要 10 年,那 AGI 会在你旅程的中途出现,你的商业计划必须把这个因素算进去

【1】AGI 还缺一两块拼图,概率 50/50

Garry Tan 开场问:当前的 AI 范式,大规模预训练、RLHF、思维链,这些东西里已经包含了多少 AGI 的最终架构?还有什么根本性的缺失?

AGI 还缺哪几块拼图

Hassabis 的回答比较谨慎。他说当前这些组件“几乎可以确定”会是 AGI 最终架构的一部分,走到今天这一步已经证明了太多东西,不可能突然发现这是一条死路。但在已有的东西之上,可能还需要一两个大想法。

他列出了三个未解问题:持续学习(continual learning,即模型在部署后持续从新经验中学习的能力)、长程推理、以及记忆的某些方面。这些问题也许能靠现有技术的渐进式创新解决,也许需要全新的方法。

他给出了一个有意思的概率判断:50/50。一半概率是现有技术足够,另一半概率是还缺一两个关键突破。Google DeepMind 两边都在押注。

【2】记忆:百万 token 上下文其实不够用

话题自然转到了记忆和上下文窗口。Garry Tan 提到现在的系统每次处理都是无状态的,持续学习缺失的情况下,大家都在用“梦境循环”(定期批量更新)这类临时方案。

百万 token 不是长期记忆

Hassabis 对这个话题有独特的发言权。他的博士研究就是海马体如何将新知识优雅地整合进已有的知识库。大脑在睡眠(特别是 REM 快速眼动期)中回放重要的经历片段来巩固学习,DeepMind 最早的 Atari 游戏 AI 程序 DQN 就借鉴了这个机制,用“经验回放”(experience replay)反复重放成功的游戏轨迹来加速学习。

我们现在的做法有点像用胶带糊住,就是把所有东西都塞进上下文窗口。 (“We're kind of using duct tape right now—shove it all in the context window.”)

他接着解释为什么这个方案不够好。百万 token 上下文窗口听起来很大,人类的工作记忆平均只有 7 个数字左右,而 AI 有百万甚至千万级别的上下文。但问题是,我们把所有东西都扔进去了,不管重要不重要、对不对。更关键的是,如果你要处理实时视频流,天真地录入所有 token 的话,百万 token 其实只够 20 分钟。如果你想让系统理解你一两个月的生活,远远不够。

即使存储空间无限,找到当下决策真正需要的那条信息,这个检索成本也是不可忽视的。Hassabis 认为记忆领域还有很大的创新空间。

【3】AlphaGo 的技术遗产正在复活

Garry Tan 追问 DeepMind 在强化学习方面的历史积累,AlphaGo、AlphaZero、MuZero 这些系统背后的哲学在今天构建 Gemini 时发挥了多大作用。

AlphaGo 旧想法正在回到基础模型

Hassabis 说强化学习的重要性“在起伏中轮回”。DeepMind 从创立第一天起就在做智能体,Atari 游戏 AI 和 AlphaGo 说到底都是智能体系统,能自主设定目标、做决策、制定计划。当时选择游戏领域是为了让问题可控,然后逐步挑战更复杂的游戏,比如 AlphaGo 之后又做了星际争霸(AlphaStar)。

过去几年的核心问题是:能否把这些模型从游戏推广到语言和世界模型?而今天所有前沿模型的思维模式和思维链推理,其实都可以追溯到 AlphaGo 时代开拓的路径。

他透露了一个值得关注的信息:Google DeepMind 正在重新审视当年的一些旧想法,包括蒙特卡洛树搜索(Monte Carlo tree search)等方法,在当今基础模型的规模上重新应用。他认为未来几年 AI 的很多进步将来自于 AlphaGo 和 AlphaZero 时代的想法与现代基础模型的结合。

【4】小模型在快速变聪明

Garry Tan 观察到蒸馏技术让小模型越来越接近前沿模型的能力,Flash 模型大约能达到前沿模型 95% 的水平,成本只有十分之一。他问蒸馏有没有极限。

小模型快速变聪明

Hassabis 说这是 Google DeepMind 的核心优势之一。他们当然要建最大的模型来推动能力边界,但快速把这些能力压缩到更小模型中是他们的强项。Google 有十几个十亿用户级的产品,搜索的 AI 概览和 AI 模式、Gemini 应用、YouTube、Maps,每一个都需要 AI 服务。几十亿用户需要极快、极高效、低延迟的服务,这种商业压力反过来成了技术进步的发动机。

关于蒸馏的理论极限,他说目前没有看到任何信息密度的硬性天花板。他们的工作假设是:前沿模型发布半年到一年后,同等能力就会出现在边缘级小模型上。

他还提到了一个架构设想:未来可能是高效的本地模型处理日常任务(比如音频和视频流),只在特定情况下才调用云端的前沿模型。这种“本地 + 云端”的分层架构对隐私和安全特别有意义,尤其是考虑到家用机器人等场景。

【5】Gemini 下棋暴露的推理缺陷

Garry Tan 接着问推理能力:模型能做出很厉害的思维链推理,但在聪明本科生不会犯的错误上翻车。

Gemini 下棋暴露的推理回路

Hassabis 认为当前的思维范式还很粗糙,有很大的创新空间。比如可以监控思维链的进展、在推理过程中途介入纠正。他经常觉得这些系统在“过度思考”,陷入某种循环。

他举了一个具体的例子。他有时会用 Gemini 下棋,所有前沿基础模型在游戏上都表现很差,但这恰好提供了一个有趣的观察窗口。因为棋局的规则是确定的,他能很快判断模型的思维链是否在走弯路。

他观察到的现象是:模型考虑某一步,意识到这步是臭棋,但找不到更好的,于是绕了一圈又回到那步棋,然后走了出去。

在一个真正精确的推理系统里,你不应该看到这种情况。 (“You just shouldn't be seeing that happening in a very precise reasoning system.”)

这就是他所说的“锯齿状智能”(jagged intelligence):一方面能解国际数学奥林匹克(IMO)金牌级别的问题,另一方面换个提问方式就会犯基本的算术错误。在他看来,这种不一致说明系统缺少某种对自身思维过程的“自省”能力。但他也补充说,修复这种缺陷可能只需要一两个关键调整。

【6】智能体:实验阶段,投入产出比还没对上

Garry Tan 问智能体是炒作还是刚刚开始。Hassabis 的回答是:刚刚开始,但还在实验阶段。

智能体还在投入产出比实验期

他的论点是:要达到 AGI,你必须有一个能主动解决问题的系统,智能体就是通向 AGI 的路径。但目前,智能体在“完整任务”上还不够好,主要是因为它们不能在具体使用环境中持续学习和适应。缺乏持续学习是智能体无法做到“交付后不管”(fire and forget)的根本原因。

他还提到了一个耐人寻味的观察:

我看到很多人启动几十个智能体跑 40 个小时,但我不确定产出能匹配这种级别的投入。 (“I see a lot of people working on setting off dozens of agents for like 40 hours, but I'm not sure I've seen the output that yet quite justify that level of input going in.”)

最近两三个月,人们才开始找到智能体真正有价值的使用场景,不再是“玩具展示”而是真正增加效率的工具。

【7】半小时做出 Theme Park,但爆款在哪?

谈到创造力和凭感觉编程(vibe coding),Hassabis 给出了一个令人印象深刻的对比。

创造力不只是更快做原型

我现在半小时就能做出 Theme Park 的原型,而我 17 岁的时候花了 6 个月。 (“I can do a prototype of Theme Park in half an hour now, which took me 6 months back when I was 17.”)

【注:Theme Park 是 Hassabis 在 1994 年参与开发的模拟经营游戏,全球销量超过 1500 万份。】

但他马上接了一个更有意思的观察:如果工具已经这么强了,为什么还没有一个凭感觉编程做出来的爆款游戏卖出 1000 万份?

他觉得缺的东西可能跟“craft 和 soul”有关,某种人类的品味和执着。工具降低了执行门槛,但创造力本身还没有被替代。他预计 6 到 12 个月内,应该会看到有人用这些工具做出真正有影响力的作品,最先出现的不会是完全自主的 AI 创作,而是这个房间里的某个人用 AI 工具实现了 1000 倍的生产力。

然后他把话题推到了一个更深的层面。AlphaGo 第二局的第 37 手(Move 37)是一个让人类棋手震惊的创造性落子,Hassabis 当时看到这步棋后确信可以启动科学项目,从首尔回来的第二天就启动了 AlphaFold 项目。

但他说,Move 37 级别的创造力还不够。

下出 Move 37 还不够。关键是能不能发明围棋。 (“It's not enough to come up with Move 37. Can it invent Go?”)

他设想给系统一段高层描述:“一个 5 分钟能学会规则、但需要穷尽一生去精通的游戏,美学上很优雅,一局可以在一个下午完成”,然后看系统能不能返回一个像围棋这样的东西。今天的系统做不到这一点。

【8】Gemma 开源背后的战略计算

切换到开源话题。Hassabis 说 Google DeepMind 一直是开放科学的倡导者,AlphaFold 完全免费开放就是例子。Gemma 系列的目标是在同等参数规模下做到世界领先。

Gemma 开源的三层计算

他提到了一个有意思的地缘考量:

也很重要的一点是,开源里要有西方栈。中国模型很多都很出色,目前在开源里领先。 (“It's important for there to be Western stacks on open source. A lot of the Chinese models are excellent, and they're currently leading in open source.”)

开放边缘模型还有一个务实的理由。Google 需要在 Android、眼镜、机器人等设备上运行模型,一旦部署到设备端,权重本来就暴露了。既然如此,不如直接完全开放。他们已经决定在“Nano 级别”统一采用开源策略。

【9】多模态的长期赌注

Garry Tan 在采访前向 Hassabis 演示了他自己用 Gemini 搭建的语音助手(类似电影《Her》中的 Samantha),他评价 Gemini 在语音直接对接模型方面的深度和工具调用能力是目前所有模型中最好的。

多模态是未来助手的底座

Hassabis 说这是 Gemini 一个“还没被充分认识到”的优势。Gemini 从一开始就按多模态方式训练,初期这比只专注文本要困难得多,但长期收益正在显现。比如 Genie(Google DeepMind 的世界模型生成器)就建立在 Gemini 的多模态能力之上,对机器人领域很关键。Waymo 已经在使用 Gemini 相关技术。

未来的数字助手,无论是在手机、眼镜还是其他设备上,都需要理解周围的物理世界和直觉物理。这正是 Gemini 系列模型的强项。

【10】推理永远不会免费

Garry Tan 问:当推理成本趋近于零时,会发生什么?

推理成本下降后需求会反弹

Hassabis 的回答是:推理可能永远不会真正免费。他引用了杰文斯悖论(Jevons' paradox):当某种资源的使用效率提高时,需求反而会增加,最终消耗掉所有效率收益。

【注:杰文斯悖论最早由经济学家 William Stanley Jevons 在 1865 年提出,原始语境是煤炭。蒸汽机效率提高后,煤炭消费量不降反升。】

他设想了几种“吃掉”所有推理算力的方式:百万级智能体集群协同工作、单个智能体在多个方向上并行思考然后综合结果。即使通过可控核聚变或超导等材料科学突破将能源成本降到接近零,芯片的物理制造仍然是瓶颈。至少在未来几十年内,推理端仍然会有配额限制。

【11】虚拟细胞:10 年后的目标

Garry Tan 问:AlphaFold 3 已经超越了蛋白质,扩展到更广泛的生物分子。距离模拟完整的细胞系统还有多远?

虚拟细胞的十年路线图

Hassabis 先说了 Isomorphic Labs 的进展。这家从 DeepMind 剥离出来的公司正在把 AlphaFold 之外的相邻生物化学和化学领域也做起来,设计具有正确性质的化合物。他说“很快会有重大公告”。

他认为完整的虚拟细胞大约需要 10 年时间。目前 DeepMind 的科学团队从虚拟细胞核开始做起,因为细胞核相对自包含。这类问题的关键是:能否从复杂性中切出一个足够自包含的片段,近似处理其输入输出,然后专注于这个子系统。

最大的挑战是数据不足。如果能在不杀死细胞的情况下对活细胞进行纳米级分辨率成像,问题就变成了一个视觉问题,“我们知道怎么解决视觉问题”。但目前他不知道有任何成像技术能同时做到纳米分辨率和对活细胞无损。静态图像的分辨率已经很高了,但缺少动态信息。

所以有两条路:一条是硬件驱动、数据驱动,等待成像技术突破;另一条是建模方式,构建更好的动态系统学习模拟器。

【12】AI 是科学的终极工具

Garry Tan 问他在所有科学领域中最看好哪个。Hassabis 没有直接排名,而是说这一直是他做 AI 的核心动力。

AI 是科学的终极工具

DeepMind 的使命分两步:第一步解决智能,也就是建造 AGI;第二步用它解决其他所有问题。 (“Step one was solve intelligence, i.e., build AGI, and then step two was use it to solve everything else.”)

他说这个“解决其他所有问题”后来要改措辞,因为人们会问“你真的是说'所有问题'吗?”。确实是的。

他提到了一个概念:“根节点问题”(root node problems),指那些一旦解决就能打开全新研究分支的科学难题。AlphaFold 就是典型例子。目前全球超过 300 万研究人员在使用 AlphaFold,他从制药界的高管朋友那里听到,“从现在起几乎每一种新药的发现过程都会用到 AlphaFold”。

他觉得其他领域,材料科学、气候建模、数学,目前大约处于“AlphaFold 1 的阶段”,结果很有前景但还没有真正解决该领域的大挑战。未来几年会有很多进展。

【13】AlphaFold 式突破的三个条件

Garry Tan 问:什么样的科学问题适合 AlphaFold 式的突破?有没有一个模式?

AlphaFold 式突破的三个条件

Hassabis 说他应该把这个写下来。从 AlphaGo 和 AlphaFold 的经验中,他总结出三个条件:

  1. 第一,巨大的组合搜索空间,越大越好,大到暴力搜索或特殊算法都无法解决。围棋的合法走法和蛋白质的可能构型都远超宇宙中原子的数量。

  2. 第二,清晰的目标函数。蛋白质折叠可以看作最小化自由能,围棋就是赢。你需要能定义“什么是好的”,这样才能爬坡。

  3. 第三,足够的数据,或者一个能生成大量同分布合成数据的模拟器。

如果这三个条件成立,现有的方法就能在“大海捞针”式的搜索中走很远。药物发现也是一样的框架:总有一个化合物能治这种病,没有副作用,只要物理定律允许它存在,剩下的问题就是如何高效地找到它。

【14】“爱因斯坦测试”:AI 能做真正的科学发现吗?

Garry Tan 把话题推到了更高的抽象层面:AI 能做真正的科学推理,还是只是在做模式匹配?

爱因斯坦测试:AI 能不能发明新科学

Hassabis 说他觉得很接近了。Google DeepMind 有 Co-Scientist 这样的通用科学推理系统,也有 AlphaEvolve 这类在基础 Gemini 之上增加能力的算法。但坦白说,他还没有看到任何一个真正的“重大发现”。

他认为这与之前讨论的创造力问题相关。真正的发现超越了模式匹配(因为没有现成的模式可以匹配),也超越了简单的外推。他把它称为“类比推理”(analogical reasoning),认为当前系统还不具备这种能力,或者至少没有以正确的方式使用。

他用了一个递进的方式来说明这个挑战。首先,能否解决已有的数学难题?比如千禧年难题(Millennium Prize Problems,数学界悬赏每题 100 万美元的七大未解问题)。他觉得可能只需要几年。他个人最想看到的是 P=NP 问题的解决。

但比解决千禧年难题更难的是:能否提出一组新的千禧年级别的问题,让顶级数学家认为它们同样深刻、值得一生去研究?

然后他提出了他的“爱因斯坦测试”。

用 1901 年的物理学知识训练一个系统,然后看它能不能做出爱因斯坦 1905 年做的事情,包括狭义相对论。 (“Can you train a system with the knowledge of physics of 1901, and then will it come up with what Einstein did in 1905, including special relativity?”)

【注:1905 年被称为爱因斯坦的“奇迹年”(annus mirabilis),他在这一年发表了四篇划时代论文,涵盖光电效应、布朗运动、狭义相对论和质能等价(E=mc²)。】

一旦通过这个测试,就意味着系统具备了发明真正新事物的能力。他认为应该反复跑这个测试,看系统什么时候能做到。

【15】给创业者的建议:把 AGI 算进你的商业计划

最后一个话题是给创业者的建议。Hassabis 先回应了 Garry Tan 之前的提问:“如果你坐在 YC 创业者的位置上,你会怎么做?”

把 AGI 算进深科技商业计划

他的核心建议是找到 AI 与另一个深科技领域的交叉点。材料科学、医学、或者任何涉及物理世界原子的硬科学问题。这类跨学科团队,特别是涉及物质世界的,在可预见的未来不会被基础模型的下一次更新轻易取代,是最具防御性的创业方向。

然后他提出了一个更具体的时间规划问题。如果你的 AGI 时间线是 2030 年,而真正的深科技创业通常需要 10 年,那 AGI 会在你旅程的中途出现。这件事不一定是坏事,但你必须把它考虑进去。你的系统能利用 AGI 吗?AGI 出现后你的产品会怎样?

他给出了一个有价值的架构判断:未来不会是一个包含所有能力的巨大通用模型。更可能的架构是通用模型(Gemini、Claude 等)调用 AlphaFold 这样的专用系统作为工具。如果把蛋白质折叠的知识直接塞进 Gemini,“那肯定会影响它的语言能力”。这种“通用编排器 + 专用工具”的架构意味着,做好一个垂直领域的专用系统在 AGI 时代依然有巨大价值。

追求困难的问题和追求简单的问题,难度其实差不多。只是难的地方不一样。 (“Going after hard problems is no more difficult than going after a shallower, simpler problem. They're just differently difficult.”)

他用自己的经历收尾。2010 年创办 DeepMind 时,投资人告诉他“AI 我们试过了,不行”。学术界也认为 AI 是 90 年代就被证伪的边缘学科。但他从很年轻的时候就决定了要做 AI,因为这既是他能想到的最重要的事,也是最有趣的事。即使今天 AI 还没成功,他也会在某个车库里继续做下去。

Hassabis 同时在做两件事:建前沿模型(Gemini),用 AI 做科学(AlphaFold、Isomorphic Labs)。这让他的判断比纯模型派或纯应用派更有参考价值。他对 AGI 路径的判断,“可能还缺一两个大想法”,比大多数行业声音更克制。他对智能体投入产出比的质疑也值得注意,尤其是在 Google 自己也在大力推广智能体产品的情况下。

接下来值得关注的几个具体节点:第一,智能体是否能在长周期任务中稳定学习和适应,而不是靠更长上下文硬撑;第二,AI for Science 是否出现新的 AlphaFold 式“根节点问题”突破;第三,AI 是否开始提出高质量的新问题,而不仅仅是更快解决旧题。Hassabis 所说的 AGI 中途到来,对深科技创始人不是一句时间表判断,而是一道架构题:你今天建的系统,到那时是被替换,还是成为 AGI 会主动调用的工具。

Q&A 速览

问:当前 AI 范式距离 AGI 还有多远? 答:现有组件(预训练+RLHF+ 思维链)会是最终架构的一部分,但有 50% 概率还需要一两个关键突破。持续学习、长程推理和记忆是三个主要未解问题。Hassabis 的个人 AGI 时间线是 2030 年左右。

问:小模型会越来越聪明吗? 答:是的。Google 的工作假设是前沿模型能力在半年到一年后可以下放到边缘级小模型。蒸馏目前没有遇到信息密度的理论极限。

问:AI 能做真正的科学发现吗? 答:还没有。Hassabis 认为当前系统缺乏“类比推理”能力。他提出了“爱因斯坦测试”作为检验标准:用 1901 年的物理学知识训练系统,看能否产出狭义相对论级别的发现。

问:深科技创业者该怎么规划? 答:找到 AI 和另一个硬科学领域的交叉点。把 AGI 可能在旅程中途出现这个因素纳入商业计划。专用的 AI 系统(如 AlphaFold)在 AGI 时代仍然有价值,因为它们会作为工具被通用模型调用。

问:为什么还没有凭感觉编程做出的爆款? 答:工具降低了执行门槛,但创造力本身,也就是 craft 和 soul,还没有被替代。Hassabis 预计 6 到 12 个月内会出现用 AI 工具做出的有影响力的作品。