螃蟹变龙虾？MIT发现AI基准数据集存在“系统性”标记错误_图灵汇

投稿
APP
微信扫一扫获取更多

螃蟹变龙虾？MIT发现AI基准数据集存在“系统性”标记错误

shubohui

2021-03-29 00:00:00

图灵汇官网

AI基准数据集的系统性标签错误：影响与修正

概览

人工智能与机器学习领域的进步，很大程度上依赖于公共数据集的利用。这些数据集中的标注语料为机器学习算法提供了基础，帮助其识别模式并进行预测。然而，数据集并非完美无瑕，错误的标注亦在所难免，这可能导致AI模型产生偏差，进而影响科学家的实验结果与结论。

系统性错误的规模与影响

近期，麻省理工学院的研究揭示了AI基准数据集中的系统性标签错误现象，平均误差达3.4%。错误的例子包括将螃蟹误认为龙虾、青蛙误判为猫，甚至手写数字3被误判为5。这些错误不仅存在于图像数据集中，也出现在文本和音频数据集里，如错误标注的产品评论、动物种类识别等。错误标签导致的基准测试结果不稳定，进而影响AI模型的评估与选择。

AI模型的自我修正能力

研究发现，AI模型能够识别并适应数据集中的错误标签。在某些情况下，低容量模型在修正数据集误差时表现得更为出色，这表明它们在一定程度上避免了对错误标签的过度依赖。这一发现提示数据科学家在选择模型时应考虑错误标签的影响，选择更适合当前数据集特性的模型。

数据集现状与挑战

AI数据集的创建面临诸多挑战，包括隐私保护、伦理考量以及潜在的偏见问题。例如，IBM发布的数据集未获得被摄者的同意，而早期的ImageNet数据集则包含不当内容，如裸体儿童、色情演员照片等。此外，数据集中存在明显的种族与性别偏见，导致AI模型在特定群体上的表现不佳。

结论与展望

AI基准数据集的准确性和质量对于推动AI技术发展至关重要。面对数据集中的系统性标签错误，AI社区应持续努力，开发更精准、客观的数据集，同时加强数据伦理教育，确保AI技术的发展符合社会道德标准。通过这样的努力，AI技术将能更好地服务于人类社会，实现科技向善的目标。

系统性基准龙虾螃蟹标记错误存在发现数据 MIT

本文来源：图灵汇文章作者： shubohui

: 让企业摸着“京东”过河，解密京东云言犀AI，最接地气的数智供应链答案
图灵汇

: 海尔智家邓邱伟：一个“智家大脑”如何颠覆智能家居体验？
图灵汇

: 突发机器人龙头曝大幅裁员，CEO公开发话行业凛冬将至！
图灵汇

: 阿里达摩院田彪：如何用“模组化”解决AI语音场景“碎片化”痛点？
图灵汇

: 暌违四年，优傲新品重新“定义”协作机器人
图灵汇

: 谷歌 AI 搜索功能被指冲击新闻出版商流量：未经许可提取内容 + 低链接率
图灵汇

: 谷歌发布安卓 16 QPR1 Beta 2 更新：Pixel 8/9 系列手机支持桌面模式、为平板引入窗口化功能
图灵汇

: 谷歌安卓 16 窗口化新规：功能仅限平板，折叠手机体验需外接屏幕
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

: 苹果更新 iOS 26 / iPadOS 26 / macOS Tahoe 26 设计资源，助力开发者快速适配“液态玻璃”视觉风格
图灵汇

下一篇

医院变乐园？球形机器人成患者游戏伙伴，还能当厨房清洁工

李静

2021-03-29

3063

编译 | 熊大宝编辑 | 李水青3月30日报道，近日Robohub报道称，荷兰代尔夫特大学的布德维恩·布恩（Boudewijn Boon）等研究人员设计了一种自主球形机器人——Fizzy，其电机内部的小轮子确保了运动自由度，也拥有了“顽皮性”。Fizzy设