蚂蚁数科登顶国际权威BIRD榜单刷新中国公司最好成绩

投稿
APP
微信扫一扫获取更多

蚂蚁数科登顶国际权威BIRD榜单刷新中国公司最好成绩

2025-12-15 14:06:08

9月26日，一项全球知名的技术评估平台BIRD-Bench发布最新排名。在此次评比中，蚂蚁数科推出的数据分析智能体Agentar-SQL表现优异，超越了包括AT&T、谷歌云、腾讯云和阿里云在内的多个国际企业，位居榜首。这是中国企业在此类榜单中的最佳成绩。

BIRD-Bench是全球公认的权威评测系统，专门用于测试AI模型将自然语言转化为结构化查询语言（SQL）的能力。该平台要求AI在实际复杂的大型数据库环境中稳定运行。数据集覆盖金融、电力、医疗等37个领域，总容量达33GB，包含超过1万条高难度查询任务，是各大AI团队展示技术实力的重要舞台。

在此次评测中，Agentar-SQL在准确率和执行效率两个关键指标上均排名第一。这表明蚂蚁数科在智能数据分析方面已达到世界领先水平。

该智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL开发，目标是让用户通过自然语言完成复杂的数据查询。它采用一种强化学习方法GSPO，提升SQL推理能力，使模型在处理过程中更深入地分析SQL结构，减少逻辑错误，提高准确性。同时，它具备多轮修正功能，能反复检查生成的SQL语句，进一步提升精准度。此外，它还使用两阶段生成方式，先生成多个SQL选项，再进行对比筛选，最终选择最优解。

蚂蚁数科长期专注于AI大模型的研发与应用。此前，其自主研发的金融推理大模型Agentar-Fin-R1在多个主流金融测试中表现突出。另一款专为新能源行业设计的时序大模型，在发电量预测任务中，准确率超过了谷歌和亚马逊的同类产品。

本文来源：图灵汇文章作者：手机技术资讯

24小时热文