o3拿下25%高分震惊数学教授,2025 IMO金牌或被AI收入囊中!

图灵汇官网

新闻报道

最近,帝国理工学院的Kevin Buzzard教授在他的博客文章中详细讨论了人工智能在数学领域的应用前景。Buzzard教授大胆预测,到2025年,AI可能在国际数学奥林匹克竞赛中取得相当于金牌的成绩。

自OpenAI推出新版模型以来,多个高难度基准测试的顶尖水平不断被刷新,特别是在数学、编程和软件工程等领域,新模型的表现远远优于旧版。

特别值得注意的是,今年11月,Epoch AI推出了名为Frontier Math的新基准测试,准确率为25.2%,引起了广泛关注。

这项成果的重要意义

由60多位数学家共同设计试题的陶哲轩曾认为,这类测试会让AI困扰多年。然而,最新的研究成果打破了这一预期。Buzzard教授指出,AI在某些具体任务上的表现超出了他的预期。

Buzzard教授在文章中深入剖析了AI在数学研究中的潜力,特别是在处理复杂计算和验证方面的优势。不过,他也承认AI在原创性证明和深入理解数学概念方面还存在一定的局限性。

Frontier Math数据集的特点

大多数人认为语言模型像ChatGPT一样,能回答各种问题。但实际上,语言模型的发展远超想象。虽然早期模型只能生成简单的句子或段落,但如今它们的进步令人惊叹。

没人知道这种进步还能持续多久,但大量资金投入表明发展不会停止。这种快速进步带来了很多挑战,尤其是数据集的保密性问题。

数据集的难题

Frontier Math数据集中的问题是寻找具体数字而不是证明定理。这些问题需要明确且可计算的答案,并且能够自动验证。即便是专业数学家,解决这些问题也有一定难度。

Buzzard教授提到,他能解答数据集中的部分问题,但对其他问题也感到无从下手。

为何设立这样的数据集

传统的“证明这个定理”问题评分成本高昂,而且在2024年,人们对AI在复杂问题上的信任度仍然不高。相比之下,验证数字是否匹配要容易得多,可以在短时间内完成。

数学家的主要职责是提出证明或构思想法,而不是处理数字。但由于缺乏高质量的数学数据集,AI的发展受到制约。因此,Frontier Math数据集仍然具有重要意义。

AI在数学领域的突破

不久前,OpenAI的o3在Frontier Math数据集上获得了25.2%的准确率,震惊了整个AI数学界。Buzzard教授对此也感到意外。

未来的挑战

尽管AI在一些领域表现优异,但在证明数学定理方面还有很长的路要走。DeepMind的AlphaProof项目在2024年国际数学奥林匹克竞赛中解决了四道题,展示了AI在特定任务上的强大能力。

然而,数学家更期待的是能够以人类易于理解的方式正确证明定理的系统。目前的难点在于,语言模型在逻辑推理方面的准确性较低,而定理证明器虽然准确性较高,但呈现结果的方式有时难以理解。

总结

尽管AI在数学领域取得了显著进展,但仍有许多工作需要完成。特别是如何跨越本科生水平的门槛,以及如何确保AI的证明能够被人类理解和接受,依然是亟待解决的关键问题。

本文来源: 互联网 文章作者: 何梓卿
    下一篇

导读:智东西(公众号:zhidxcom)编译 | 风衣编辑 | Panken智东西1月2日消息,近日,《福布斯》做出了2025年AI发展的十大预测。AI模型开发方面:其一,Scaling laws会被