告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena_图灵汇

投稿
APP
微信扫一扫获取更多

告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

大话VR

2025-08-26 15:19:52

图灵汇官网

在人工智能时代，数据的重要性无需多言，但如何准确衡量数据的价值、判断数据的好坏，一直是个未解难题。为此，上海人工智能实验室OpenDataLab团队在数据领域不断研究，正式推出了开放数据竞技场OpenDataArena。

在海量的SFT（监督式微调）后训练数据面前，研究者们常常遇到这样的困扰：不知道哪些数据真正有用，也很难系统地评估和比较不同的数据集。而OpenDataArena就是为解决数据价值问题打造的“竞技场”，目标是把数据质量的评估从模糊的“经验判断”变成可量化的“科学方法”。团队希望通过这个公平、公开、透明的平台，第一次正式尝试回答“如何验证数据价值”这个核心问题。它不仅有直观的数据评测榜单，还建立了一套完整可重复的数据价值验证体系，通过训评一体化的开源工具，让不同数据集在相同条件下公平“比赛”，用模型训练效果作为衡量数据价值的最终标准。同时，开发多维度评分工具，给数据做精细化“体检”，让数据价值不再是看不清的“黑盒”。

OpenDataArena第一次系统地研究“如何评价数据质量”这个难题，为此构建了“开放数据竞技场”，并开发了整套数据价值验证工具。这个平台的核心成果有三个部分：一是公平、公开、透明的SFT后训练数据价值评测平台，里面包含多领域、可视化的数据竞技榜单；二是多维度数据打分系统，从二十多个维度对数据进行细致评分，部分评分数据已经开源，方便研究者直接下载使用，避免重复调用API；三是训评一体化的开源工具，涵盖数据训练、评估和打分的全套工具，让价值验证过程可以重复、可以扩展。

这个平台能满足几类核心需求：对模型训练者和数据研究者来说，可以快速找到并筛选出高质量数据集，不用盲目试错，提高模型训练和应用的效率；对数据合成研究者来说，提供多维度评分数据和工具，帮助找到高价值的“种子数据”，生成更优质的合成数据；对学术研究人员来说，能探索数据特征和模型效果的内在联系，为数据选择、数据生成等前沿研究提供可靠的数据支持和客观的评估依据。目前平台已经覆盖4个以上领域、20多个基准测试、20多个数据评分维度，处理了100多个数据集、超过2000万条数据样本，完成了600多次模型训练、1万多次模型评估，这些数字还在不断增加。

告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

OpenDataArena的核心理念是让数据价值在实际应用中得到验证。通过一套公平、公开、可重复的大模型训练与评测机制，比较不同训练数据集的好坏。平台具体怎么运作呢？首先是数据集的选择，覆盖了通用、数学、代码、科学等多个领域的后训练数据，这些数据来自HuggingFace，下载量和关注度都比较高，既有代表性又有时效性。然后是模型选择，用了社区常用的Llama3.1和Qwen 2.5的7B版本作为基准模型，能反映真实的学术和工业应用场景，也尽可能体现了多数实际使用场景中模型大小的数据性能。训练和评估环节，训练用的是大家认可的LLaMA-Factory框架，参数设置也很常见；测试用OpenCompass进行全面评估，团队做了很多预实验优化推理模板和评估器，排除干扰，让结果更公平。评测集也覆盖了通用、数学、代码、长链推理等多个维度，全面反映数据质量。最后，通过数据评测榜单直观展示数据的“优秀”程度，帮助用户快速挑选高质量数据集，降低试错成本。

告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

除了通过模型训练效果直接看数据质量，平台还开发了多维度评分工具，给数据做“体检”。这些评分指标得到了学界和业界的广泛认可。平台从二十多个维度对整个数据集和单条数据进行细致打分，比如基于模型的评估（像IFD）、大模型作为评委（如准确性、复杂度）和启发式方法（如回复长度）等，从多个角度量化数据价值。团队已经完成超过1500万条数据的多维度评分，部分结果已经开源。对需要用常见评价指标做数据筛选、种子数据生成的科研用户来说，这能大大降低打分成本，避免重复调用API，节省实际开销，是很宝贵的资源。通过这些工具，数据合成和筛选的研究者能更方便地找到高价值“种子数据”，生成更优质的数据。

告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

为了坚持“公平、公正、公开”的设计原则，也为了让更多人参与数据价值验证，OpenDataArena团队把平台的核心工具都开源了。包括基于模型的训练评测工具和客观的多维度数据评价打分工具，所有细节都能在OpenDataArena-Tool里找到说明。

告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

训评一体化工具基于主流的LLaMA-Factory训练框架和OpenCompass评测框架，打造了端到端的训练与评测工具，提供完整的配置和复现脚本，确保评估实验结果可重复、公平。相关设置尽量和当前主流研究、其他开源工具对齐，保证结果可比。多维度数据打分工具也在不断完善，目前大部分已实现的评分维度工具都已开源，还有详细使用教程。不管是单个维度还是多个维度的评估，用户都能在官方wiki文档里学到怎么使用这些工具给自己的数据“体检”。团队还在继续优化，支持更多评分维度。通过工具开源，团队希望提供开放共享的评估平台，让所有人都能参与数据评估，一起推动高价值数据的产生。

告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

据团队介绍，目前OpenDataArena完成的只是开始，数据价值验证还有很长的路要走。未来团队有更多计划，比如逐步支持多模态等更复杂的数据类型，扩展到医疗、金融、科学等更多专业领域，每月更新数据竞技场保证排行榜的及时性。团队认为，数据价值验证需要社区共同努力，这些计划也很需要科研社区的参与。感兴趣的话可以进一步关注。

告别“炼丹玄学”：上海AI实验室推出首个大模型数据竞技场OpenDataArena

本文来源：互联网文章作者：大话VR

: 济源低空经济实施方案出炉
图灵汇

: 漳州城兴城乡绿色发展母基金招GP
图灵汇

: 高端磷化铟光芯片厂商「晶耀芯辉半导体」完成种子轮融资
图灵汇

: 清华00后团队成立的「零次方机器人」完成数千万元天使轮融资
图灵汇

: 乐享科技完成近2亿元天使轮融资，IDG资本领投
图灵汇

: 阿里巴巴，投出 AI 视频生成赛道最大单笔融资
图灵汇

: 高瓴、智元等机构押注，具身大脑公司星源智完成 2 亿元天使轮融资
图灵汇

: 贵州茅台跨界入股，合成生物企业康维健完成 B 轮融资
图灵汇

: 具身智能关节厂商「灵足时代」连续完成 Pre-A&Pre-A+ 千万元融资，红杉种子领投
图灵汇

: 对话速腾聚创杨先声：激光雷达点亮「机器人之眼」，割草机器人率先爆发
图灵汇

下一篇

美团大模型LongCat实测：回答自带“美团基因”，深度思考功能未上线

大话VR

2025-09-04

56

导读：每经记者：赵雯琪每经编辑：余婷婷预热半年，美团大模型产品终于揭开神秘面纱。9月1日，美团正式发布LongCat-Flash-Chat（中文名：龙猫，以下简称“LongCat”），在Github（