超越国际数学奥林匹克金牌得主:谷歌 DeepMind AI 系统展现超强几何解题能力

图灵汇官网

谷歌旗下的人工智能研究机构DeepMind近期推出了一款新的人工智能系统AlphaGeometry2,它在解答国际数学奥林匹克竞赛(IMO)的几何题目方面取得了重要突破。研究人员表示,这款AI的表现甚至超越了许多金牌得主的平均水平。

AlphaGeometry2是对之前版本AlphaGeometry的更新,于今年年初正式推出。据DeepMind介绍,这个AI系统能够应对过去25年间IMO竞赛中大约84%的几何难题。这项竞赛主要面向高中生,而DeepMind相信,找到解决复杂几何问题的新途径可能是构建更先进AI的关键。

解决数学定理的证明或者解释某个定理为何成立,需要强大的逻辑推理能力和从众多可能性中挑选最佳方案的能力。如果DeepMind的看法没错,那么这样的解题技巧将会成为未来通用型AI模型不可或缺的一部分。

图灵汇曾报道过,去年夏天,DeepMind展示了一个整合了AlphaGeometry2与AlphaProof(一种专注于数学形式化推理的AI工具)的系统,成功完成了2024年IMO竞赛中的四个题目。这种方式不仅适用于几何问题,还能应用于数学和其他科学领域的复杂任务,比如工程计算。

AlphaGeometry2的核心部分包含来自谷歌Gemini系列AI模型的语言模块以及一个“符号引擎”。Gemini模型协助符号引擎依据数学规则推导答案,并为特定的几何定理生成有效的证明。

由于将证明转化为AI能理解的形式存在一定难度,现有的几何训练数据相对匮乏。为此,DeepMind为AlphaGeometry2的语言模型制作了大量合成数据,生成了超过三亿个具有不同复杂度的定理及其证明。

研究小组选取了2000年至2024年间IMO竞赛中的45道几何题,涵盖直线方程及需要在平面内移动图形的方程,并将其扩展为一个包含50道题目的集合。根据相关论文,AlphaGeometry2成功解决了其中的42题,得分高于多数金牌得主的40.9分。

不过,该系统也有不足之处。一项技术障碍使得AlphaGeometry2难以处理包含可变数量点、非线性方程以及不等式的题目。虽然这不是首个达到金牌水准的几何AI,但它是在如此广泛的题库范围内实现这一成就的第一款系统。

在另一组更为艰难的IMO竞赛问题测试中,AlphaGeometry2的成绩不尽如人意。DeepMind团队另外挑选了29道由数学专家推荐但还未出现在正式比赛中的题目,AlphaGeometry2仅答对了其中的20道。

本文来源: 图灵汇 文章作者: 线性资本