AlphaGeometry:一款具有奥林匹克水平的几何 AI 系统 [译]

作者:

Trieu Trinh,

Thang Luong

AlphaGeometry:一款具有奥林匹克水平的几何 AI 系统 [译]

我们的 AI 系统在几何问题解决方面超越了当前最先进的方法,推动了 AI 在数学推理领域的进步。

回顾古希腊奥林匹克的精神,国际数学奥林匹克竞赛成为全球最杰出的高中数学天才的舞台。这场比赛不仅展现了年轻才俊的风采,也成为了测试先进 AI 系统在数学和推理领域能力的新战场。

在今日发表于《自然》杂志的论文中,我们介绍了 AlphaGeometry,这是一款能够解决复杂几何问题的 AI 系统,其能力已接近人类奥林匹克金牌选手的水平,标志着 AI 性能的一个重大突破。在对 30 个奥林匹克几何问题的基准测试中,AlphaGeometry 在规定的奥林匹克时间内解决了 25 个问题。相比之下,之前的最先进系统只解决了其中的 10 个问题,而平均水平的人类金牌选手能解决 25.9 个问题。

图表展示了一系列来自 2000 至 2022 年奥林匹克竞赛的 30 个几何问题(IMO-AG-30)。
在我们的基准测试集中,包括从 2000 年至 2022 年奥林匹克竞赛选出的 30 个几何问题(IMO-AG-30),AlphaGeometry 在比赛时间限制内解决了其中的 25 个问题。这个成绩接近人类金牌得主在这些相同问题上的平均分数。之前的最先进方法,被称为“吴氏方法”,只解决了其中的 10 个问题。
图表展示了一系列来自 2000 至 2022 年奥林匹克竞赛的 30 个几何问题(IMO-AG-30)。 在我们的基准测试集中,包括从 2000 年至 2022 年奥林匹克竞赛选出的 30 个几何问题(IMO-AG-30),AlphaGeometry 在比赛时间限制内解决了其中的 25 个问题。这个成绩接近人类金牌得主在这些相同问题上的平均分数。之前的最先进方法,被称为“吴氏方法”,只解决了其中的 10 个问题。

AI 系统在解决几何和数学领域的复杂问题上常常遇到难题,主要是因为它们缺乏足够的推理能力和训练数据。AlphaGeometry 结合了神经语言模型的预测力和基于规则的演绎引擎的能力,这两者协同工作,共同寻找解决方案。我们开发了一种生成大量合成训练数据的方法——创造了 1 亿个独特的例子,使得我们能在没有任何人类示范的情况下训练 AlphaGeometry,有效地克服了数据瓶颈问题。

AlphaGeometry 的成功展示了 AI 在逻辑推理、发现和验证新知识方面的不断进步。能够解决奥林匹克级别的几何问题,是向着开发具有深度数学推理能力的更先进和通用 AI 系统迈出的重要一步。我们计划开源 AlphaGeometry 的代码和模型,希望它能与其他合成数据生成和训练工具一起,为数学、科学和 AI 领域带来新的可能性。

AI 研究人员首先挑战 IMO 几何问题,这很合理,因为这些问题的解决过程有点像下棋,每一步都有限的合理选择。但看到他们真的做到了,我还是感到震惊。这是一项了不起的成就。

NGÔ BẢO CHÂU,菲尔兹奖得主,IMO 金牌得主

AlphaGeometry 采取了神经符号方法

AlphaGeometry 结合了神经语言模型和符号演绎引擎的优势,形成了一个神经符号系统。这个系统能够共同工作,为复杂的几何定理找到证明。就像“快速思考和慢速思考”理论中所述,一个系统快速提供“直觉”式的想法,而另一个则负责更谨慎、理性的决策。

语言模型擅长快速识别数据中的常规模式和关系,能够迅速预测可能有用的结构,但它们通常缺乏严谨的推理能力和解释决策的能力。而符号演绎引擎则基于正规逻辑,使用明确的规则来得出结论。这些引擎是理性的、可解释的,但在单独处理大型复杂问题时可能显得“慢”且不够灵活。

AlphaGeometry 的大语言模型 (Large Language Model) 能引导其符号推理系统有效地找到解决几何问题的可能方案。在奥林匹克几何题中,通常需要在题目所给的图形中增添新的几何元素,如点、线或圆,才能求解。AlphaGeometry 的大语言模型能够预测出在无数可能中,哪些新元素的增加最为关键。这些线索极大地帮助填补信息空白,让符号推理系统能进一步分析图形,逐步推进到最终解答。

图 1: 展示了 AlphaGeometry 如何解决一个简单的几何题。在解决一个简单的几何题时,AlphaGeometry 首先根据题目所给的图形和定理前提(图左),运用其符号推理系统来推导图中的新信息,直至找到答案或无法再推导出新信息。如果答案尚未找到,AlphaGeometry 的大语言模型会加入一个可能有助的新几何元素(以蓝色表示),为符号系统开辟新的推理路径。这样的循环一直进行,直到找到答案(图右)。在这个例子中,只需添加一个新元素就可解题。
图 1: 展示了 AlphaGeometry 如何解决一个简单的几何题。在解决一个简单的几何题时,AlphaGeometry 首先根据题目所给的图形和定理前提(图左),运用其符号推理系统来推导图中的新信息,直至找到答案或无法再推导出新信息。如果答案尚未找到,AlphaGeometry 的大语言模型会加入一个可能有助的新几何元素(以蓝色表示),为符号系统开辟新的推理路径。这样的循环一直进行,直到找到答案(图右)。在这个例子中,只需添加一个新元素就可解题。

图 2: AlphaGeometry 解决一道奥林匹克级的几何题的插图。AlphaGeometry 在解答一道奥林匹克级的几何题时:展示了 2015 年国际数学奥林匹克第 3 题的原题(图左)和 AlphaGeometry 的精简版解答(图右)。图中蓝色部分表示新增的几何元素。AlphaGeometry 的解答过程包含了 109 个逻辑步骤。
图 2: AlphaGeometry 解决一道奥林匹克级的几何题的插图。AlphaGeometry 在解答一道奥林匹克级的几何题时:展示了 2015 年国际数学奥林匹克第 3 题的原题(图左)和 AlphaGeometry 的精简版解答(图右)。图中蓝色部分表示新增的几何元素。AlphaGeometry 的解答过程包含了 109 个逻辑步骤。

点击查看完整解答

生成 1 亿个合成数据样本

几何学是艺术、建筑、工程等多个领域的基石,它涉及空间、距离、形状和位置关系的理解。人们通常通过使用笔和纸、检视图形和运用已有知识来学习几何,从而发现新的、更复杂的几何属性和关系。我们的合成数据生成方法模拟了这一知识积累过程,并在大规模上进行,让我们得以从头开始培训 AlphaGeometry,而无需依赖人类的示范。

利用高效的并行计算技术,该系统初始生成了十亿个随机几何图形,并全面分析了每个图形中点和线的所有关系。AlphaGeometry 找出了每个图形中所有的证明,并反向追溯出为得到这些证明所需添加的额外几何元素(如果有的话)。我们将这一过程称为“符号推理与追溯”。

图 3: AlphaGeometry 生成的合成数据的视觉展示。
图 3: AlphaGeometry 生成的合成数据的视觉展示。

这个巨大的数据池在筛选后剔除了相似样本,最终形成了一个包含 1 亿个不同难度、各具特色的训练样本集,其中约 900 万个样本包含了新增的几何元素。凭借这些众多样本,AlphaGeometry 的大语言模型能够在面对奥林匹克级的几何题时,有效地推荐新增的几何元素。

AI 在数学推理上的开创性应用

AlphaGeometry 提供的每个奥林匹克级问题的解答都经过了计算机的检验和验证。我们还将其结果与先前的 AI 方法和奥林匹克比赛中的人类表现进行了对比。此外,数学教练兼前奥林匹克金牌得主 Evan Chen 也为我们评估了 AlphaGeometry 的部分解答。

Chen 表示:“AlphaGeometry 的输出成果令人印象深刻,因为它既能被验证又十分清晰。以往 AI 在解决证明型竞赛题目时,效果时好时坏(有时答案正确但需人工复核)。AlphaGeometry 没有这个问题:其解答具有可由机器验证的结构。尽管如此,其输出内容依然易于人类理解。人们本可能想象出一个通过穷尽坐标系统暴力解题的计算机程序,充斥着繁复的代数计算。但 AlphaGeometry 并非如此。它像学生一样使用经典几何规则,处理角度和类似三角形等问题。”

“AlphaGeometry 的输出成果令人印象深刻,因为它既能被验证又十分清晰……它像学生一样使用经典几何规则,处理角度和类似三角形等问题。”

Evan Chen, 数学教练兼奥林匹克金牌得主

每届国际数学奥林匹克竞赛都设有六个问题,其中通常只有两个涉及几何。因此,AlphaGeometry 这个人工智能模型只能应用于其中的三分之一问题。尽管如此,它在几何领域的表现令人瞩目,甚至达到了 2000 年和 2015 年国际数学奥林匹克铜牌水平,成为世界上首个做到这一点的 AI 模型。

在几何问题上,我们的系统已经接近金牌选手的水平。不过,我们更加关注的是:利用 AI 推进下一代智能系统的逻辑推理能力。我们通过从头开始,利用大量合成数据对 AI 系统进行训练,这种方法可能将改变未来 AI 系统在数学及其他领域探索新知识的方式。

AlphaGeometry 是基于谷歌 DeepMind 和谷歌研究院在 AI 数学推理领域的开创性工作而开发的。从研究纯数学之美,到利用大型语言模型解决数学和科学问题,我们一直在探索 AI 的可能性。最近,我们还推出了名为 FunSearch 的工具,它是首个在数学科学开放问题上取得突破的大型语言模型。

我们的长期目标是打造能够在不同数学领域泛化应用的 AI 系统,培养出通用人工智能系统所需的复杂问题解决和逻辑推理能力,同时拓展人类的知识边界。

想了解更多关于 AlphaGeometry 的信息吗?请阅读我们在《自然》杂志上发表的论文,或访问 AlphaGeometry 的 Github 页面。

这个项目是谷歌 DeepMind 团队和纽约大学计算机科学系联合实施的。项目的主要贡献者包括 Trieu Trinh、Yuhuai Wu、Quoc Le、He He 和 Thang Luong 等。我们还要感谢 Rif A. Saurous、Denny Zhou、Christian Szegedy、Delesley Hutchins 等多位专家学者的帮助与支持。特别感谢谷歌 DeepMind 的领导层,包括 Ed Chi、Koray Kavukcuoglu、Pushmeet Kohli 和 Demis Hassabis,他们为这个项目提供了巨大支持。