人工智能研究者如何意外发现:我们对“学习”的理解,可能全是错的
作者:Jamie Lord 原文:How AI researchers accidentally discovered that everything they thought about learning was wrong
“彩票假说”解释了,为何海量参数的神经网络能够成功,尽管几个世纪的理论都预言它们会失败。
五年前,如果你建议 AI 研究者去训练一个拥有数万亿参数的神经网络,你可能会收获同情的目光。这违背了机器学习中最根本的法则:模型一旦做得太大,就会变成一台“高级复印机”,只会死记硬背训练数据,却学不到任何有用的东西。
这并非仅仅是行业惯例——它是一条数学定律,背后有三个世纪的统计学理论支撑。每一本教科书上都画着同一条无情的曲线:小模型“欠拟合”,最佳模型能够“泛化”,而大模型则会灾难性地“过拟合”。故事到此为止。
然而今天,那些“不可能”的庞大模型正在驱动 ChatGPT、解码蛋白质,并引发了一场价值数千亿美元的全球军备竞赛。改变的不仅仅是计算能力,更是我们对“学习”本身的理解。这场变革背后的故事揭示了,AI 领域最大的突破,是如何从一群有胆量忽视本领域基本假设的研究者手中诞生的。
统治机器学习的铁律
三百多年来1,一条原则主宰着每一个学习系统:偏差-方差权衡(bias-variance tradeoff)。它的数学原理优雅,逻辑无可辩驳。模型建得太简单,就会错过关键模式;建得太复杂,又会把噪声当成信号来记忆。
想象一个学习算术的学生。给他看成千上万道带答案的加法题,他可能有两种学习方式。聪明的方法是:掌握进位和位值的基本算法。愚蠢的方法是:把每一个例子都背下来。后一种策略虽然能在家庭作业上拿满分,但在考试中却会一败涂地。
神经网络似乎特别容易掉入这种死记硬背的陷阱。凭借数百万个参数,它们可以轻易地存储整个数据集。传统理论预测,这些“过参数化”的网络会像那个死记硬背的学生一样——在训练数据上表现完美,但在任何新问题上都束手无策。
这种理解塑造了一切。研究者们痴迷于各种架构技巧、正则化技术和数学约束,试图从精心控制的小模型中榨取性能。把模型做大,被认为是昂贵又愚蠢的行为。
这个领域最受尊敬的声音也强化了这种正统观念。“更大的模型只会过拟合”成了口头禅。学术会议的论文都聚焦于效率,而非规模。仅仅通过增加更多参数来解决问题的想法,在学术上是异端邪说。
打破规则的“异教徒”
2019年,一群研究者犯下了终极“罪行”:他们无视警告,继续扩大模型规模。当他们的网络在训练数据上达到完美准确率时——也就是理论尖叫着“危险”的那个点——他们没有停下,而是进一步闯入了禁区。
接下来发生的事情,颠覆了300年的学习理论。
模型并没有崩溃。在经历了一个看似死记硬背训练数据的初始颠簸后,一些非凡的事情发生了:模型的性能竟然再次开始提升,而且是戏剧性地提升。
这种现象被称为“双下降”(double descent)——首先是预料之中的、因模型过拟合导致的错误率上升,然后是出乎意料的第二次下降,因为模型以某种方式完全超越了过拟合。记录这一发现的米哈伊尔·贝尔金(Mikhail Belkin)和他的同事指出,这“与源自偏差-方差分析的传统智慧相矛盾”。
这一发现的涟漪迅速传遍了整个 AI 研究领域。OpenAI 随后的工作表明,这种好处可以跨越好几个数量级。更大的模型不仅仅是在积累更多的事实,它们还在发展出性质上全新的能力,包括仅从几个例子中学习任务的能力。
突然之间,整个领域都转向了。谷歌、微软、Meta 和 OpenAI 投入数十亿美元,建造越来越大的模型。GPT 系列的参数量从1.17亿爆炸式增长到1750亿。那个被理论所禁止的“越大越好”的哲学,成了整个行业的北极星。
但一个问题困扰着每一位研究者:这一切究竟为什么会成功?
拯救学习理论的“彩票”
答案来自一个意想不到的角落:一项关于神经网络“彩票”的研究。2018年,麻省理工学院的乔纳森·弗兰克尔(Jonathan Frankle)和迈克尔·卡宾(Michael Carbin)正在研究“剪枝”——即在训练后移除不必要的权重。他们的发现为这个规模悖论提供了一个优雅的解决方案。
他们发现,在每一个大型网络内部,都隐藏着“中奖彩票”——一些微小的子网络,它们能够达到完整网络的性能。他们可以剔除掉96%的参数而丝毫不损失准确率。每一个成功的大型网络,其绝大部分实际上都是“累赘”。
但关键的洞见在于:这些“中奖”的子网络,只有在它们原始的随机初始权重下才能成功。一旦改变了这些初始值,同样的稀疏架构就会彻底失败。
彩票假说(The lottery ticket hypothesis)由此成型:大型网络之所以成功,不是因为它们学习了复杂的解决方案,而是因为它们为寻找简单的解决方案提供了更多机会。权重的每一个子集都代表一张不同的彩票——一个拥有随机初始化的、潜在的优雅解决方案。大多数彩票都会“刮空”,但当你有数十亿张彩票时,中奖就变得不可避免。
在训练过程中,网络并不是在寻找完美的架构。它内部已经包含了无数个拥有不同初始条件的小网络。训练变成了一场大规模的彩票开奖,那个初始化得最好的小网络最终胜出,而其他数十亿个则逐渐消亡。
这一启示让经验上的成功与经典理论和解了。大型模型并非在死记硬背,而是在广阔的参数空间中,寻找那些被隐藏起来的、优雅而简单的解决方案。奥卡姆剃刀原则(Occam's razor)依然有效:最简单的解释仍然是最好的。规模,只是变成了一种更复杂的工具,用来寻找那些简单的解释。
智能的真实面貌
这一发现的意义超越了人工智能。如果学习意味着寻找能够解释数据的最简单模型,而更大的搜索空间能促成更简单的解决方案,那么这就重新定义了“智能”本身。
想想你的大脑:860亿个神经元,数万亿个连接,无论从哪个标准看都属于“过参数化”。然而,你却擅长从有限的例子中学习,并泛化到新的情境中。彩票假说表明,这种神经元的丰裕可能服务于同样的目的——为任何问题提供海量的、潜在的简单解决方案。
智能并非关乎记忆信息,而是关乎发现能够解释复杂现象的优雅模式。规模为这种搜索提供了所需的计算空间,而不是为复杂的解决方案提供存储空间。
这一发现也揭示了科学进步的规律。几十年来,研究者们避免扩大模型规模,因为理论说那行不通。而突破来自于经验主义的勇气——去检验假设,而非全盘接受。
这种模式在整个科学史上回响。大陆漂移学说曾被嗤之鼻,直到板块构造理论提供了机制。量子力学看似荒谬,直到实验证据变得无可辩驳。最重要的发现,往往需要我们超越公认理论的边界。
然而,彩票假说并没有推翻经典的学习理论,它只是揭示了这些原则的运作方式比我们想象的要复杂得多。简单的解决方案仍然是最佳的;我们只是发现了一种更好的方法来找到它们。
对于 AI 的发展而言,这一理解既带来了希望,也指出了局限。扩大规模之所以有效,是因为更大的模型提供了更多的“彩票”,更多找到最优解的机会。但这种机制也暗示了其天然的边界。当网络在寻找最小解决方案方面越来越成功时,额外增加的规模带来的回报就会递减。
这与专家们对当前方法局限性的担忧不谋而合。杨立昆(Yann LeCun)就认为,无论规模多大,根本性的架构限制可能会阻止语言模型实现真正的理解。彩票假说在解释当前成功的同时,也暗示了未来的挑战。
优雅的惊喜
这场意外革命了 AI 的发现,也给我们上了一堂深刻的课:对于那些敢于挑战传统智慧边界的人,宇宙常常会准备好优雅的惊喜。有时候,最深刻的洞见并非来自推翻既有原则,而是来自发现它们的运作方式比我们想象的要精妙得多。
进化本身也遵循着类似的原则,在广阔的基因可能性空间中探索,以找到优雅的生存方案。最成功的生物不是最复杂的,而是适应得最高效的。
这看似是学习理论的一场危机,最终却成了对它的最好辩护。偏差-方差权衡依然成立,但我们了解到,它的运作机制远比任何人想象的都更加微妙。大型神经网络的成功不是因为它们打破了规则,而是因为它们在以一种我们从未想过的高度,来玩转这些规则。
那些敢于超越理论舒适区、扩大模型规模的研究者们,不仅仅推动了 AI 的进步,他们还提醒我们:经验现实有时蕴含着理论尚未领悟的智慧。在一个建立在数学确定性之上的领域里,最重要的发现,恰恰来自于拥抱不确定性本身。
这里所说的300年,指的是现代偏差-方差分析背后的基础数学原理,而非这个术语本身。贝叶斯定理(1763年)为用证据更新信念建立了数学框架,而拉普拉斯在统计推断方面的早期工作(18世纪80年代至19世纪10年代)则正式确立了一条原则:模型必须在拟合度与简洁性之间取得平衡,以避免得出虚假的结论。这些早期的统计学洞见——即过于复杂的解释往往捕捉的是噪声而非信号——构成了我们今天所说的偏差-方差权衡的数学基石。现代的具体表述是在20世纪后半叶经过几十年才形成的,但其核心原则已经指导了统计推理数个世纪。↩