AI 数学推理新王:英伟达发布两款 OpenMath-Nemotron 模型,刷新 AIME 准确率纪录

图灵汇官网

最近有媒体报道称,科技平台 marktechpost 发布了一篇文章,介绍英伟达推出了两款专门用于数学推理的人工智能模型——OpenMath-Nemotron-32B 和 OpenMath-Nemotron-14B-Kaggle。数学推理是人工智能领域的一个难点,虽然传统语言模型可以生成通顺的文本,但在解决复杂数学问题时通常表现欠佳,因为这类问题需要理解抽象概念并完成多步逻辑推导。

为了应对这个挑战,英伟达研发了这两款基于 Qwen 系列 Transformer 的模型。经过在 OpenMathReasoning 数据集上的深度微调,这些模型的数学推理能力得到了大幅提升。其中,OpenMath-Nemotron-32B 是主打产品,拥有 328 亿个参数,采用 BF16 张量计算优化硬件效率。在多项基准测试中,该模型表现优异,比如在 AIME 2024 和 AIME 2025 中取得了领先的成绩。

以工具集成推理模式为例,在 AIME24 上,该模型的 pass@1 准确率达到了 78.4%,而通过多数投票机制,这一数字提高到了 93.3%。此外,模型支持多种推理方式,如链式思维、工具集成推理以及生成式选择,用户可以根据实际情况调整推理的透明度和答案的准确性,满足不同场景的需求。

另一款模型 OpenMath-Nemotron-14B-Kaggle 参数量为 148 亿,专门为 AIMO-2 Kaggle 竞赛设计。通过对精选数据集子集的微调,它在竞赛中取得冠军。在 AIME24 测试中,其链式思维模式下的 pass@1 准确率为 73.7%,而在生成式选择模式下,这一比例提升至 86.7%。相比更大规模的版本,这款轻量化模型在保持良好性能的同时,更适合资源受限或对响应时间敏感的应用场景。

英伟达为这两款模型提供了开源方案,整合进 NeMo-Skills 框架,覆盖数据生成、训练和评估的全流程。开发者可以通过示例代码快速构建应用程序,获取详尽的解释或简洁的答案。

两款模型都针对 NVIDIA GPU(如 Ampere 和 Hopper 架构)进行了深度优化,利用 CUDA 库和 TensorRT 技术实现高效运行。此外,它们还支持通过 Triton Inference Server 进行低延迟、高吞吐量的部署,而 BF16 格式则在内存占用与性能间找到了平衡点,促进了实际应用的广泛普及。

请注意,本文中的外部链接仅为提供更多信息,最终结论需自行判断。所有 图灵汇的文章都包含这样的免责声明。

本文来源: 图灵汇 文章作者: plane资讯
    下一篇

此前,马斯克在社交平台 X 上贴出了一道数学题,并表示如果有人解开这个问题,就有资格在特斯拉公司工作,引起了很多网友的讨论。这是一道算式题:6÷2 (1+2)。在推文下面,网友纷纷给出了自己的答案,但