深度之赌:从卧室到上帝机器

【引子】
2012年冬天,内华达州太浩湖畔,一家赌场。
楼下,赌徒们拉着老虎机,每赢一万美元,铃声大作。楼上,一群搞机器学习的研究者正在开会——这是当年的NeurIPS,没人愿意赌钱,赌场恨死他们了。
但赌场不知道的是,楼上正在进行一场更大的赌博。一个64岁的教授和他的两个学生,正在把自己"卖"给出价最高的买家。每次加价一百万美元。
这三个人后来被称为"深度学习三巨头"中的核心力量。那个教授叫Geoffrey Hinton,刚刚拿了诺贝尔奖。他的两个学生,一个叫Ilya Sutskever,后来创办了OpenAI又离开了;另一个叫Alex Krizhevsky,他在父母家的卧室里训练出了一个叫AlexNet的东西,让整个世界意识到:深度学习真的有用。

2024年12月,NeurIPS大会上,Hinton和另一个Jeff坐在了一起——Google首席科学家Jeff Dean,传奇工程师,Gemini的负责人。两人聊了一个多小时,把过去十几年的故事抖了出来。
这些故事,串起来就是一部现代AI的秘史。
【1】一个本科生的愚蠢错误

1990年,明尼苏达大学
1990年,Jeff Dean还是个本科生。他选了两个学期的并行算法课,其中有一周讲到了神经网络。
他着迷了。
于是他跑去找教授Vipin Kumar:"我想做个毕业论文,研究怎么用并行计算来训练神经网络。"
系里正好有一台32个处理器的超立方体计算机。Dean想的是:如果能用上32倍的算力,是不是能训练出更厉害的神经网络?
他动手做了两种方法。一种是把数据切开,每个处理器算一部分——三十年后,这叫"数据并行"。另一种是把模型切开,不同的处理器算模型的不同部分——这叫"模型并行"。当时他给它们起了两个怪名字,什么"模式分区"和"模型流水线"之类的。
但他犯了一个愚蠢的错误。
他只增加处理器的数量,却没有增加模型的大小。结果就是,他把一个10个神经元的小网络摊到32个处理器上,效率惨不忍睹。加速曲线难看得要命。
那篇毕业论文写完,他就把神经网络这事儿放下了。在他的脑子里,这只是个"有趣的抽象概念"。
他不知道的是,自己当时其实已经站在了通往未来的门口。他只是还没找到钥匙。
二十年后,他会在Google的微型厨房里遇见一个人,然后一切都会不一样。
【2】微型厨房里的闲聊

2011年,Google总部
Google园区里有很多微型厨房。员工饿了就去拿个零食,渴了就倒杯咖啡。很多重要的对话,就发生在这些不起眼的地方。
2011年的某一天,Jeff Dean走进一间微型厨房,撞见一个面熟的人。
"你怎么在这儿?"
那人叫Andrew Ng,斯坦福的教授,刚开始每周花一天时间在Google兼职。
"我也不太确定要做什么,"Ng说,"不过在斯坦福,我的学生开始用神经网络做东西,效果还不错。"
Dean自从写完那篇本科论文之后,就没怎么关注过神经网络了。但他一直觉得这是个对的方向,只是时机没到。
"有意思,"他说,"我们这儿电脑多。要不试试训练一个特别大的神经网络?"

当时Google的数据中心里没有GPU,只有成千上万的CPU服务器。Dean开始写一个软件框架,让神经网络的计算能够分摊到几千台机器上。
他们给这个项目起了个名字:DistBelief。意思是"分布式信念"。
几个月后,他们用一万六千个CPU核心,训练了一个比当时任何人都训练过的神经网络大50倍的模型。他们把它放到一千万张YouTube随机截图上,让它自己学习。
没人告诉它什么是猫。但它学会了识别猫脸。
这个项目后来有了个更响亮的名字:Google Brain。
一切都始于微型厨房里的那次闲聊。
【3】64岁的实习生

2012年夏天,Google总部
2012年夏天,Geoffrey Hinton从多伦多飞到加州,要在Google待一个夏天。
问题来了:怎么给他发工资?
Google有"访问学者"这个职位,但要求至少待六个月。Hinton只能待几个月,不够格。HR翻遍了系统,找到了唯一一个能用的类别:实习生。
于是,64岁的Hinton拿到了一张绿色工牌,上面写着"实习生"。
新人培训那天,他走进一间大教室。满屋子都是二十出头的年轻人,来自清华、MIT、印度理工。每个人头上都戴着一顶统一发放的小帽子。Hinton也戴上了。
他后来说:"我还留着那顶帽子。"
讲师站在前面,开始讲怎么登录系统:"用你的LDAP和OTP……"
Hinton举手了:"什么是LDAP?什么是OTP?"
全场的年轻人都转过头来看他。这个老头是谁?怎么什么都不会?
教室里有四个助教,负责帮学生解决问题。十分钟后,其中一个被专门分配给了Hinton。
午饭时间,他端着餐盘去排队。忽然有人喊了一声:"Hinton教授!"
是他以前在多伦多教过的一个本科生,碰巧也在Google实习。
全场的年轻人又转过头来看他。眼神完全变了。
多年以后,Dean回忆这件事时说:"他是我的实习生。"
Hinton接话说:"你们年龄字段只给了6个bit,所以我只比其他实习生大了一点点。"
【4】父母家卧室的两块GPU

2012年,多伦多
Alex Krizhevsky不想写文献综述。
这是多伦多大学博士生的必经之路:你得读一大堆论文,写一篇综述,证明你了解这个领域,然后才能正式开始做研究。没人喜欢这件事,Alex尤其不喜欢。
Hinton看出来了。
"这样吧,"他说,"你每周在ImageNet上提升1%的准确率,就可以推迟一周写综述。"
这是Hinton做过的最好的管理决策。
Alex开始疯狂刷分。一周,又一周,又一周。准确率一直在涨,综述一直没写。
训练用的硬件很简陋:两块Nvidia GPU,放在Alex父母家的卧室里。
"学校付的GPU的钱,"Hinton后来说,"但电费是他父母付的。我这是在帮多伦多大学省钱。"
刚开始的时候,Alex其实什么都不懂。有一次他跑来跟Hinton说:"不行,跑不动。"
Hinton走过去一看,发现Alex把权重衰减参数设成了1。
"为什么设成1?"
"我觉得这个数看起来不错。"
"应该是0.001。"
Hinton后来总结说,学生看起来蠢,不是因为真的蠢,只是因为还不知道。Alex学得很快,很快就变成了顶尖高手。
另一个学生Ilya Sutskever一直在推动这件事。"我们得把这东西用在ImageNet上,"他说,"必须赶在Yann LeCun之前。"
Yann LeCun当时在纽约大学,也在做卷积神经网络。他一直想让自己的学生把这技术用在ImageNet竞赛上,但那些学生总觉得有更重要的事情要做。
Ilya没那么多顾虑。他亲自把ImageNet的数据预处理好,全部裁剪成统一尺寸,让Alex可以直接开始训练。
2012年秋天,ImageNet竞赛的结果公布。Alex他们的模型赢了,而且不是赢了一点点——是碾压式的胜利。
那个模型后来被叫做AlexNet。整个计算机视觉领域都被震动了。深度学习不再是一小撮人的信仰,而是被证明真正有用的东西。
而这一切的起点,是一个不想写综述的博士生,两块GPU,和一间父母家的卧室。
【5】黑莓说不需要语音识别

2011年前后,加拿大
加拿大人有个老毛病:喜欢抱怨本国的技术都被外国人抢走了。但有些时候,是他们自己不要的。
George Dahl和Abdul-Rahman Mohamed是Hinton的学生。他们用神经网络做了一个语音识别模型,比当时最好的技术还要好一点。不是好很多,但确实更好。
另一个学生Navdeep Jaitly想去企业实习。Hinton想到了黑莓——那时候黑莓还是加拿大的骄傲,每个商务人士口袋里都揣着一台。
Hinton联系了黑莓的人:"我们有个更好的语音识别技术,可以免费给你们用。让我的学生去你们那儿实习,手把手教你们怎么做。"
黑莓的回复是:我们对语音识别不感兴趣。
为什么?
因为黑莓有键盘。用户可以打字,谁需要说话呢?
Navdeep只好去了别的地方。他没法去美国,因为正在申请绿卡。最后Google在蒙特利尔给他找了个位置,远程工作。
他的经理Vincent Vanhoucke一开始也不太信。Navdeep说他想改变Google做语音识别的方式。Vincent说:"你的目标太大了,找个现实点的项目吧。"
Navdeep不听,坚持要做。
结果他成功了。
几年后,黑莓的市值跌到了谷底。那个曾经人手一部的小黑盒,变成了历史的注脚。
黑莓的创始人后来在公开场合抱怨:加拿大的技术总是被外国公司抢走。
Hinton听到这话,只想问一句:当年我们免费送上门的技术,是谁说不要的?
【6】赌场楼上的拍卖

2012年12月,太浩湖
那年的NeurIPS开在太浩湖边的一家赌场。
这是个奇怪的选择。搞机器学习的人懂概率,懂统计,没人愿意赌博。赌场恨死这帮人了——他们只住酒店,不往老虎机里塞钱。
Hinton拿到了一张VIP卡。这种卡只发给"鲸鱼"——那些会输掉大笔钱的豪赌客。
他拿着卡去VIP餐厅吃饭,服务员问:"您是豪赌客吗?"
Hinton说:"我不赌博。"
服务员看着他,一脸不信。
楼下的赌徒们不知道,楼上正在进行一场更大的赌博。
AlexNet刚刚在ImageNet上碾压了所有对手。各大科技公司都坐不住了:Google、微软、百度……都想把Hinton和他的学生弄到手。
Hinton决定玩一个游戏。他发现,公司花在工资上的钱,和花在收购上的钱,完全是两个量级。后者大概是前者的十倍。
"那我们就让自己变成一个可以被收购的东西。"
他们注册了一家公司,叫DNN Research。公司一共三个人,没有产品,没有收入,只有技术和人。
拍卖在赌场楼上的一间会议室里进行。楼下的老虎机时不时响起铃声——有人赢钱了。楼上的规则是:每次加价一百万美元。
竞争进入白热化。几家公司轮番加价,价格一路飙升。
Hinton心里其实早就有了答案。那年夏天他在Google做实习生,太开心了。Brain团队的氛围太好了,每天都能学到新东西,遇到有趣的人。
他想去Google。
但问题是:拍卖还在继续,看起来要被另一个买家赢走了。
怎么办?
Hinton做了一个简单粗暴的决定:喊停。
"拍卖结束,"他宣布,"我们选Google。"
就这样,DNN Research卖给了Google。三个人,一个64岁,两个二十多岁,加入了二十来人的Brain团队,挤在一间比会议室还小的办公室里。
那是2012年底。没人知道这笔交易日后会意味着什么。
Hinton后来喜欢引用一个数字:2023年美国股市增长的80%,来自AI概念股。
而这一切的起点之一,是一间赌场楼上的会议室,和一场半途喊停的拍卖。
【7】一道改变世界的算术题

2013年,Google总部
Jeff Dean在走廊里拦住了CFO Patrick Pichette。
他手里拿着一页纸,上面写着一道算术题。
题目是这样的:假设有一亿人,每天对着手机说三分钟话。用我们现在的新语音识别模型来处理,需要多少算力?
答案让人坐不住:需要把Google现有的服务器数量翻一倍。
"这不可能,"Dean说,"就算我们有那么多钱,也没时间去买那么多服务器部署。"
但他有一个想法。
神经网络有个特点:它不需要精确计算。普通程序算错一个bit,整个系统就崩溃。神经网络不一样——它天生就带噪音,算错几个bit根本无所谓。
Hinton后来补充说:"你甚至不需要纠错内存。算错了?那就当成是dropout或者对抗训练吧。"
既然神经网络对精度要求这么低,那就可以专门为它设计一款芯片。不需要复杂的纠错电路,不需要高精度运算,只需要把矩阵乘法做得飞快。
Dean做了个估算:专用芯片的能效比,可以比通用CPU或GPU高30到80倍。
他把这个想法告诉了CFO。"我们需要五千万美元,先部署一批芯片。用途以后再说。"
Patrick Pichette同意了。
2013年,第一代TPU开始研发。那时候没人谈"AI芯片",英伟达还只是个做游戏显卡的公司,黄仁勋还没变成T恤教父。
这是一道简单的算术题。但它改变了整个行业的方向。
十年后的今天,Google有了自己的芯片工厂,有了好几代的TPU,有了用强化学习来设计芯片布局的技术。Jeff Dean说,那篇关于TPU的论文,现在是计算机架构领域历史上被引用次数最多的论文。
一切都始于走廊里的那一页纸。
【8】为什么Google没先发ChatGPT

2020-2022年
2020年,COVID让所有人都在家工作。Google内部有人做了一个聊天机器人,让员工可以边工作边聊天。
这个东西火了。
八万名Google员工在用它——这差不多是公司一半以上的人。反馈非常好。人们觉得它有用,有趣,能帮上忙。
但Google没有把它发布出去。
Jeff Dean后来解释说:"我们有点短视。"
问题出在视角上。Google的核心产品是搜索。搜索最重要的原则是什么?准确。用户问一个问题,你给一个答案,这个答案必须是对的。
而那个内部聊天机器人,会胡说八道。它会编造事实,会一本正经地撒谎。这在搜索的标准下是不可接受的。
所以Google决定先解决"准确性"的问题,再考虑发布。
他们没有意识到的是,人们用聊天机器人,并不总是为了查事实。
"帮我写一封信给兽医,说我的狗生病了。"
"帮我总结一下这篇论文。"
"帮我写一个Python脚本。"
这些事情,不需要100%准确。需要的是有用,是快速,是省事。
2022年11月30日,OpenAI发布了ChatGPT。
一两周后,Jeff Dean写了一页内部备忘录。
核心观点是:我们太分散了。Google有好几个团队在做大模型——Brain团队、DeepMind团队、还有一些其他的研究项目。每个团队都有自己的方向,自己的算力预算,自己的想法。
但这没有意义。Dean说,大模型的规律我们早就知道了:模型越大,数据越多,效果越好。既然如此,为什么不把所有人集中起来,做一个最好的?
这就是Gemini团队的起源。Brain和DeepMind合并,集中算力,全力冲刺。
对话快结束的时候,Hinton问Dean:"Google后悔发表Transformer论文吗?"
那篇论文是Google的人写的,但OpenAI和其他公司都在用这个架构。有人说Google把自己的核武器送给了竞争对手。
Dean说:"不后悔。它对世界有好处。"
【尾声】

对话的最后,主持人问了一个问题:20年后的世界会是什么样?
Jeff Dean讲了很多:更长的上下文,更高效的硬件,科学发现的加速,教育和医疗的变革。
Hinton只说了一句话:"如果有人要写一本书,标题应该是——"
他顿了一下。
"要么我们从此幸福地生活在一起,要么我们全都死了。"
全场笑了。
但他是认真的。