蚂蚁数科登顶国际权威BIRD榜单 刷新中国公司最好成绩

图灵汇官网

9月26日,一项全球知名的技术评估平台BIRD-Bench发布最新排名。在此次评比中,蚂蚁数科推出的数据分析智能体Agentar-SQL表现优异,超越了包括AT&T、谷歌云、腾讯云和阿里云在内的多个国际企业,位居榜首。这是中国企业在此类榜单中的最佳成绩。

BIRD-Bench是全球公认的权威评测系统,专门用于测试AI模型将自然语言转化为结构化查询语言(SQL)的能力。该平台要求AI在实际复杂的大型数据库环境中稳定运行。数据集覆盖金融、电力、医疗等37个领域,总容量达33GB,包含超过1万条高难度查询任务,是各大AI团队展示技术实力的重要舞台。

在此次评测中,Agentar-SQL在准确率和执行效率两个关键指标上均排名第一。这表明蚂蚁数科在智能数据分析方面已达到世界领先水平。

该智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL开发,目标是让用户通过自然语言完成复杂的数据查询。它采用一种强化学习方法GSPO,提升SQL推理能力,使模型在处理过程中更深入地分析SQL结构,减少逻辑错误,提高准确性。同时,它具备多轮修正功能,能反复检查生成的SQL语句,进一步提升精准度。此外,它还使用两阶段生成方式,先生成多个SQL选项,再进行对比筛选,最终选择最优解。

蚂蚁数科长期专注于AI大模型的研发与应用。此前,其自主研发的金融推理大模型Agentar-Fin-R1在多个主流金融测试中表现突出。另一款专为新能源行业设计的时序大模型,在发电量预测任务中,准确率超过了谷歌和亚马逊的同类产品。

本文来源: 图灵汇 文章作者: 手机技术资讯