Translated on January 17, 2024Published on January 17, 2024

AlphaGeometry：一款具有奥林匹克水平的几何 AI 系统 [译]

原文：AlphaGeometry: An Olympiad-level AI system for geometry

作者：

Trieu Trinh,

Thang Luong

我们的 AI 系统在几何问题解决方面超越了当前最先进的方法，推动了 AI 在数学推理领域的进步。

回顾古希腊奥林匹克的精神，国际数学奥林匹克竞赛成为全球最杰出的高中数学天才的舞台。这场比赛不仅展现了年轻才俊的风采，也成为了测试先进 AI 系统在数学和推理领域能力的新战场。

在今日发表于《自然》杂志的论文中，我们介绍了 AlphaGeometry，这是一款能够解决复杂几何问题的 AI 系统，其能力已接近人类奥林匹克金牌选手的水平，标志着 AI 性能的一个重大突破。在对 30 个奥林匹克几何问题的基准测试中，AlphaGeometry 在规定的奥林匹克时间内解决了 25 个问题。相比之下，之前的最先进系统只解决了其中的 10 个问题，而平均水平的人类金牌选手能解决 25.9 个问题。

图表展示了一系列来自 2000 至 2022 年奥林匹克竞赛的 30 个几何问题（IMO-AG-30）。
在我们的基准测试集中，包括从 2000 年至 2022 年奥林匹克竞赛选出的 30 个几何问题（IMO-AG-30），AlphaGeometry 在比赛时间限制内解决了其中的 25 个问题。这个成绩接近人类金牌得主在这些相同问题上的平均分数。之前的最先进方法，被称为“吴氏方法”，只解决了其中的 10 个问题。 — 图表展示了一系列来自 2000 至 2022 年奥林匹克竞赛的 30 个几何问题（IMO-AG-30）。在我们的基准测试集中，包括从 2000 年至 2022 年奥林匹克竞赛选出的 30 个几何问题（IMO-AG-30），AlphaGeometry 在比赛时间限制内解决了其中的 25 个问题。这个成绩接近人类金牌得主在这些相同问题上的平均分数。之前的最先进方法，被称为“吴氏方法”，只解决了其中的 10 个问题。

AI 系统在解决几何和数学领域的复杂问题上常常遇到难题，主要是因为它们缺乏足够的推理能力和训练数据。AlphaGeometry 结合了神经语言模型的预测力和基于规则的演绎引擎的能力，这两者协同工作，共同寻找解决方案。我们开发了一种生成大量合成训练数据的方法——创造了 1 亿个独特的例子，使得我们能在没有任何人类示范的情况下训练 AlphaGeometry，有效地克服了数据瓶颈问题。

AlphaGeometry 的成功展示了 AI 在逻辑推理、发现和验证新知识方面的不断进步。能够解决奥林匹克级别的几何问题，是向着开发具有深度数学推理能力的更先进和通用 AI 系统迈出的重要一步。我们计划开源 AlphaGeometry 的代码和模型，希望它能与其他合成数据生成和训练工具一起，为数学、科学和 AI 领域带来新的可能性。

AI 研究人员首先挑战 IMO 几何问题，这很合理，因为这些问题的解决过程有点像下棋，每一步都有限的合理选择。但看到他们真的做到了，我还是感到震惊。这是一项了不起的成就。

NGÔ BẢO CHÂU，菲尔兹奖得主，IMO 金牌得主

AlphaGeometry 采取了神经符号方法

AlphaGeometry 结合了神经语言模型和符号演绎引擎的优势，形成了一个神经符号系统。这个系统能够共同工作，为复杂的几何定理找到证明。就像“快速思考和慢速思考”理论中所述，一个系统快速提供“直觉”式的想法，而另一个则负责更谨慎、理性的决策。

语言模型擅长快速识别数据中的常规模式和关系，能够迅速预测可能有用的结构，但它们通常缺乏严谨的推理能力和解释决策的能力。而符号演绎引擎则基于正规逻辑，使用明确的规则来得出结论。这些引擎是理性的、可解释的，但在单独处理大型复杂问题时可能显得“慢”且不够灵活。

AlphaGeometry 的大语言模型 (Large Language Model) 能引导其符号推理系统有效地找到解决几何问题的可能方案。在奥林匹克几何题中，通常需要在题目所给的图形中增添新的几何元素，如点、线或圆，才能求解。AlphaGeometry 的大语言模型能够预测出在无数可能中，哪些新元素的增加最为关键。这些线索极大地帮助填补信息空白，让符号推理系统能进一步分析图形，逐步推进到最终解答。

图 1: 展示了 AlphaGeometry 如何解决一个简单的几何题。在解决一个简单的几何题时，AlphaGeometry 首先根据题目所给的图形和定理前提（图左），运用其符号推理系统来推导图中的新信息，直至找到答案或无法再推导出新信息。如果答案尚未找到，AlphaGeometry 的大语言模型会加入一个可能有助的新几何元素（以蓝色表示），为符号系统开辟新的推理路径。这样的循环一直进行，直到找到答案（图右）。在这个例子中，只需添加一个新元素就可解题。

图 2: AlphaGeometry 解决一道奥林匹克级的几何题的插图。AlphaGeometry 在解答一道奥林匹克级的几何题时：展示了 2015 年国际数学奥林匹克第 3 题的原题（图左）和 AlphaGeometry 的精简版解答（图右）。图中蓝色部分表示新增的几何元素。AlphaGeometry 的解答过程包含了 109 个逻辑步骤。

点击查看完整解答

生成 1 亿个合成数据样本

几何学是艺术、建筑、工程等多个领域的基石，它涉及空间、距离、形状和位置关系的理解。人们通常通过使用笔和纸、检视图形和运用已有知识来学习几何，从而发现新的、更复杂的几何属性和关系。我们的合成数据生成方法模拟了这一知识积累过程，并在大规模上进行，让我们得以从头开始培训 AlphaGeometry，而无需依赖人类的示范。

利用高效的并行计算技术，该系统初始生成了十亿个随机几何图形，并全面分析了每个图形中点和线的所有关系。AlphaGeometry 找出了每个图形中所有的证明，并反向追溯出为得到这些证明所需添加的额外几何元素（如果有的话）。我们将这一过程称为“符号推理与追溯”。

这个巨大的数据池在筛选后剔除了相似样本，最终形成了一个包含 1 亿个不同难度、各具特色的训练样本集，其中约 900 万个样本包含了新增的几何元素。凭借这些众多样本，AlphaGeometry 的大语言模型能够在面对奥林匹克级的几何题时，有效地推荐新增的几何元素。

AI 在数学推理上的开创性应用

AlphaGeometry 提供的每个奥林匹克级问题的解答都经过了计算机的检验和验证。我们还将其结果与先前的 AI 方法和奥林匹克比赛中的人类表现进行了对比。此外，数学教练兼前奥林匹克金牌得主 Evan Chen 也为我们评估了 AlphaGeometry 的部分解答。

Chen 表示：“AlphaGeometry 的输出成果令人印象深刻，因为它既能被验证又十分清晰。以往 AI 在解决证明型竞赛题目时，效果时好时坏（有时答案正确但需人工复核）。AlphaGeometry 没有这个问题：其解答具有可由机器验证的结构。尽管如此，其输出内容依然易于人类理解。人们本可能想象出一个通过穷尽坐标系统暴力解题的计算机程序，充斥着繁复的代数计算。但 AlphaGeometry 并非如此。它像学生一样使用经典几何规则，处理角度和类似三角形等问题。”

“AlphaGeometry 的输出成果令人印象深刻，因为它既能被验证又十分清晰……它像学生一样使用经典几何规则，处理角度和类似三角形等问题。”

Evan Chen, 数学教练兼奥林匹克金牌得主

每届国际数学奥林匹克竞赛都设有六个问题，其中通常只有两个涉及几何。因此，AlphaGeometry 这个人工智能模型只能应用于其中的三分之一问题。尽管如此，它在几何领域的表现令人瞩目，甚至达到了 2000 年和 2015 年国际数学奥林匹克铜牌水平，成为世界上首个做到这一点的 AI 模型。

在几何问题上，我们的系统已经接近金牌选手的水平。不过，我们更加关注的是：利用 AI 推进下一代智能系统的逻辑推理能力。我们通过从头开始，利用大量合成数据对 AI 系统进行训练，这种方法可能将改变未来 AI 系统在数学及其他领域探索新知识的方式。

AlphaGeometry 是基于谷歌 DeepMind 和谷歌研究院在 AI 数学推理领域的开创性工作而开发的。从研究纯数学之美，到利用大型语言模型解决数学和科学问题，我们一直在探索 AI 的可能性。最近，我们还推出了名为 FunSearch 的工具，它是首个在数学科学开放问题上取得突破的大型语言模型。

我们的长期目标是打造能够在不同数学领域泛化应用的 AI 系统，培养出通用人工智能系统所需的复杂问题解决和逻辑推理能力，同时拓展人类的知识边界。

想了解更多关于 AlphaGeometry 的信息吗？请阅读我们在《自然》杂志上发表的论文，或访问 AlphaGeometry 的 Github 页面。

这个项目是谷歌 DeepMind 团队和纽约大学计算机科学系联合实施的。项目的主要贡献者包括 Trieu Trinh、Yuhuai Wu、Quoc Le、He He 和 Thang Luong 等。我们还要感谢 Rif A. Saurous、Denny Zhou、Christian Szegedy、Delesley Hutchins 等多位专家学者的帮助与支持。特别感谢谷歌 DeepMind 的领导层，包括 Ed Chi、Koray Kavukcuoglu、Pushmeet Kohli 和 Demis Hassabis，他们为这个项目提供了巨大支持。

See all posts