蚂蚁发布并开源万亿参数思考模型Ring-1T 综合能力逼近GPT-5

图灵汇官网

10月14日,蚂蚁集团发布了名为Ring-1T的万亿参数思考模型,并且开放了模型的所有权重和训练方法。这个版本是在9月30日推出的预览版基础上进行优化升级的。通过不断扩展大规模可验证奖励强化学习(RLVR)训练,Ring-1T提升了自然语言推理能力,同时借助RLHF训练增强了通用表现,在多个任务中取得了更均衡的结果。

为了进一步提升Ring-1T在数学等复杂任务上的能力,百灵团队尝试解决更高难度的IMO2025数学竞赛题目。他们将模型接入多智能体框架AWorld,仅使用自然语言推理完成解题。测试结果显示,Ring-1T一次就解决了第1、3、4、5题,达到银牌水平,成为首个能获得国际奥数奖项的开源系统。第三次挑战时,它对第2题的几何证明接近满分。在第六题中,它的答案接近正确值,与Gemini 2.5 Pro的结果相似。

作为一款思考模型,Ring-1T在通用能力方面表现出色。在“人类偏好对齐”测试Arena-Hard V2中,它以81.59%的成功率位居开源模型第一,接近GPT-5-Thinking(High)的成绩。在医疗问答测试HealthBench中,它也获得了最高分,是开源领域中的最佳表现。

训练万亿参数模型最大的难点之一是训推精度差异,这会导致训练和推理结果不一致,从而影响模型稳定性。为了解决这个问题,蚂蚁开发了自研算法“棒冰(icepop)”,通过带掩码的双向截断技术降低训练与推理之间的差异,保证长序列训练不会失败。

此外,蚂蚁还开发了一个高性能强化学习系统ASystem,其中包含已开源的AReaL框架。该系统专门优化了万亿参数模型的显存管理和权重交换问题,实现了显存碎片快速回收和零冗余权重交换,让大规模强化学习训练更加稳定。

目前,用户可以通过HuggingFace和魔搭社区下载Ring-1T模型,并在蚂蚁百宝箱等平台在线体验。这是百灵团队首次尝试构建万亿参数的思考模型,未来还会持续改进性能。

此前,百灵团队在9月30日发布了Ring-1T的预览版,两者都是推理模型。10月9日,蚂蚁还推出了另一个大模型Ling-1T,属于通用型语言模型。

截至目前,蚂蚁百灵已经发布了18款模型,覆盖从160亿到1万亿参数的范围,其中包括两款万亿参数模型:Ling-1T和Ring-1T。

本文来源: 互联网 文章作者: 苹果汇
    下一篇

导读:IT之家 10 月 17 日消息,科技媒体 Appleinsider 昨日(10 月 16 日)发布博文,报道称苹果公司公布了 3 项 AI 研究成果,深入探讨了如何运用人工智能(AI)与大语言