告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena

图灵汇官网

在人工智能时代,数据的重要性无需多言,但如何准确衡量数据的价值、判断数据的好坏,一直是个未解难题。为此,上海人工智能实验室OpenDataLab团队在数据领域不断研究,正式推出了开放数据竞技场OpenDataArena。

在海量的SFT(监督式微调)后训练数据面前,研究者们常常遇到这样的困扰:不知道哪些数据真正有用,也很难系统地评估和比较不同的数据集。而OpenDataArena就是为解决数据价值问题打造的“竞技场”,目标是把数据质量的评估从模糊的“经验判断”变成可量化的“科学方法”。团队希望通过这个公平、公开、透明的平台,第一次正式尝试回答“如何验证数据价值”这个核心问题。它不仅有直观的数据评测榜单,还建立了一套完整可重复的数据价值验证体系,通过训评一体化的开源工具,让不同数据集在相同条件下公平“比赛”,用模型训练效果作为衡量数据价值的最终标准。同时,开发多维度评分工具,给数据做精细化“体检”,让数据价值不再是看不清的“黑盒”。

OpenDataArena第一次系统地研究“如何评价数据质量”这个难题,为此构建了“开放数据竞技场”,并开发了整套数据价值验证工具。这个平台的核心成果有三个部分:一是公平、公开、透明的SFT后训练数据价值评测平台,里面包含多领域、可视化的数据竞技榜单;二是多维度数据打分系统,从二十多个维度对数据进行细致评分,部分评分数据已经开源,方便研究者直接下载使用,避免重复调用API;三是训评一体化的开源工具,涵盖数据训练、评估和打分的全套工具,让价值验证过程可以重复、可以扩展。

这个平台能满足几类核心需求:对模型训练者和数据研究者来说,可以快速找到并筛选出高质量数据集,不用盲目试错,提高模型训练和应用的效率;对数据合成研究者来说,提供多维度评分数据和工具,帮助找到高价值的“种子数据”,生成更优质的合成数据;对学术研究人员来说,能探索数据特征和模型效果的内在联系,为数据选择、数据生成等前沿研究提供可靠的数据支持和客观的评估依据。目前平台已经覆盖4个以上领域、20多个基准测试、20多个数据评分维度,处理了100多个数据集、超过2000万条数据样本,完成了600多次模型训练、1万多次模型评估,这些数字还在不断增加。

告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena

OpenDataArena的核心理念是让数据价值在实际应用中得到验证。通过一套公平、公开、可重复的大模型训练与评测机制,比较不同训练数据集的好坏。平台具体怎么运作呢?首先是数据集的选择,覆盖了通用、数学、代码、科学等多个领域的后训练数据,这些数据来自HuggingFace,下载量和关注度都比较高,既有代表性又有时效性。然后是模型选择,用了社区常用的Llama3.1和Qwen 2.5的7B版本作为基准模型,能反映真实的学术和工业应用场景,也尽可能体现了多数实际使用场景中模型大小的数据性能。训练和评估环节,训练用的是大家认可的LLaMA-Factory框架,参数设置也很常见;测试用OpenCompass进行全面评估,团队做了很多预实验优化推理模板和评估器,排除干扰,让结果更公平。评测集也覆盖了通用、数学、代码、长链推理等多个维度,全面反映数据质量。最后,通过数据评测榜单直观展示数据的“优秀”程度,帮助用户快速挑选高质量数据集,降低试错成本。

告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena

除了通过模型训练效果直接看数据质量,平台还开发了多维度评分工具,给数据做“体检”。这些评分指标得到了学界和业界的广泛认可。平台从二十多个维度对整个数据集和单条数据进行细致打分,比如基于模型的评估(像IFD)、大模型作为评委(如准确性、复杂度)和启发式方法(如回复长度)等,从多个角度量化数据价值。团队已经完成超过1500万条数据的多维度评分,部分结果已经开源。对需要用常见评价指标做数据筛选、种子数据生成的科研用户来说,这能大大降低打分成本,避免重复调用API,节省实际开销,是很宝贵的资源。通过这些工具,数据合成和筛选的研究者能更方便地找到高价值“种子数据”,生成更优质的数据。

告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena

为了坚持“公平、公正、公开”的设计原则,也为了让更多人参与数据价值验证,OpenDataArena团队把平台的核心工具都开源了。包括基于模型的训练评测工具和客观的多维度数据评价打分工具,所有细节都能在OpenDataArena-Tool里找到说明。

告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena

训评一体化工具基于主流的LLaMA-Factory训练框架和OpenCompass评测框架,打造了端到端的训练与评测工具,提供完整的配置和复现脚本,确保评估实验结果可重复、公平。相关设置尽量和当前主流研究、其他开源工具对齐,保证结果可比。多维度数据打分工具也在不断完善,目前大部分已实现的评分维度工具都已开源,还有详细使用教程。不管是单个维度还是多个维度的评估,用户都能在官方wiki文档里学到怎么使用这些工具给自己的数据“体检”。团队还在继续优化,支持更多评分维度。通过工具开源,团队希望提供开放共享的评估平台,让所有人都能参与数据评估,一起推动高价值数据的产生。

告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena

据团队介绍,目前OpenDataArena完成的只是开始,数据价值验证还有很长的路要走。未来团队有更多计划,比如逐步支持多模态等更复杂的数据类型,扩展到医疗、金融、科学等更多专业领域,每月更新数据竞技场保证排行榜的及时性。团队认为,数据价值验证需要社区共同努力,这些计划也很需要科研社区的参与。感兴趣的话可以进一步关注。

告别“炼丹玄学”:上海AI实验室推出首个大模型数据竞技场OpenDataArena

本文来源: 互联网 文章作者: 大话VR
    下一篇

导读:每经记者:赵雯琪每经编辑:余婷婷预热半年,美团大模型产品终于揭开神秘面纱。9月1日,美团正式发布LongCat-Flash-Chat(中文名:龙猫,以下简称“LongCat”),在Github(