蚂蚁发布并开源万亿参数思考模型Ring-1T,综合能力逼近GPT-5

图灵汇官网

10月14日凌晨,蚂蚁集团推出了一个拥有万亿参数的思考模型Ring-1T,并且开放了模型的权重和训练方法。这个模型在9月30日发布的预览版基础上,继续优化了大规模可验证奖励强化学习技术,提升了自然语言推理能力。同时,通过RLHF训练,增强了模型的通用表现,在多个任务中取得更均衡的结果。

为了进一步提升Ring-1T在数学等复杂问题上的解决能力,百灵团队尝试解答更高难度的IMO2025竞赛题目。他们将模型接入多智能体框架AWorld,仅用自然语言进行推理解题。测试结果显示,Ring-1T一次就解决了第1、3、4、5题,达到银牌水平,成为首个获得国际奥数奖的开源系统。第三次尝试时,它对第2题的几何证明接近满分。在第六题中,它得出的答案是4048,虽然不是正确答案2112,但与Gemini 2.5 Pro结果一致。

作为一款思考模型,Ring-1T在通用能力方面也表现出色。在“人类偏好对齐”测试Arena-Hard V2中,它的成功率达到81.59%,位居开源模型前列,接近GPT-5-Thinking(High)的成绩。在医疗问答测试HealthBench中,它也取得了开源模型中的最高分。

训练万亿参数的思考模型面临的一大挑战是训推精度差异,即训练和推理阶段因实现方式不同导致的结果不一致,从而影响训练稳定性。为了解决这个问题,蚂蚁开发了自研的“棒冰(icepop)”算法,通过带掩码的双向截断技术,将这种差异控制在较低水平,保证长时间训练的稳定性。

此外,蚂蚁还研发了高性能的强化学习系统ASystem,其中包含已开源的AReaL框架,专门优化了万亿参数模型的显存管理和权重交换问题。这使得大规模强化学习训练更加稳定,可以像日常任务一样运行。

Ring-1T基于Ling 2.0架构的1T基础模型进行后训练,该架构具备高度稀疏的MoE结构、1/32的专家激活比、FP8混合精度以及MTP等特性,提高了训练和推理效率。在后训练阶段,团队采用LongCoT-SFT + RLVR + RLHF多阶段训练,显著增强了模型的复杂推理能力和指令理解、创意写作等通用技能。

目前,用户可以通过HuggingFace和魔搭社区下载Ring-1T模型,并在蚂蚁百宝箱等平台体验。这是百灵团队首次推出万亿参数的思考模型,未来将继续优化性能。

截至目前,蚂蚁百灵大模型已经发布18款产品,覆盖从160亿到1万亿参数的范围。其中包含两款万亿参数模型:Ling-1T和Ring-1T。随着这两款模型的发布,百灵大模型正式进入2.0阶段。

本文来源: 互联网 文章作者: 半导体行业观察
    下一篇

导读:作者/星空下的卤煮编辑/菠菜的星空排版/星空下的乌梅9月26日,第一届医学人工智能大会(MAIC2025)在山东济南正式召开。这场盛会主要以#医疗健康 行业“AI+”为主题,深度探讨人工智能在这