海天瑞声李科分享技术赋能人工智能标注,高质量数据助推人工智能发展

图灵汇官网

直播间聚焦“训练AI的人”:技术革新与产业赋能

华楠

AI训练师这一职业角色在近期受到广泛关注。请科总简要介绍AI训练师的主要职责。

李科

AI训练师是利用智能训练软件,在AI产品实际应用中负责数据库管理、算法参数设定、人机交互设计、性能测试跟踪及其他辅助任务的专业人员。此职业细分为数据标注员和AI算法测试员,共设初级工至高级技师五个等级。

华楠

能否详细区分数据标注员与算法测试员的工作内容及区别?

李科

数据标注员专注于完成人工操作部分,依据规定和标准,利用个人知识进行数据标注。例如,在人脸识别和自动驾驶场景中,从原始现实世界数据中提取,形成可供算法识别的结构化数据集。关键点标注(如眼睛、鼻子、嘴巴)在AI识别人脸时尤为重要,随着技术进步,标注点数量不断增加,挑战在于处理复杂环境下的标注工作,如光线不足、侧面视角等。

算法测试员则侧重于评估AI算法性能和效果,通过标准化测试流程,量化算法迭代成果。此角色在算法更新或系统升级时,提供客观评估,确保技术进步。

华楠

数据标注员的任职资格是什么?他们如何适应不同领域的标注需求?

李科

数据标注团队由研发和算法专家、项目经理与广义上的数据标注人员构成。研发团队负责开发高效标注系统,提升标注效率;项目经理在项目全周期中管理进度,确保客户需求;而数据标注人员根据业务方向(如语音、视觉、自然语言理解)接受特定培训,满足不同领域(如自动驾驶、金融、医疗)的专业需求。

华楠

AI应用的核心是数据。从训练到推理,AI系统是如何利用数据的?数据生产过程涉及哪些关键步骤?

李科

AI系统的运作分为训练与推理两个阶段。训练阶段需庞大数据集,通过数据与算法生成模型;推理阶段则将模型应用于新数据,产生预测或决策。数据生产流程包括设计、采集、处理(标注)、质量检查与交付,确保数据质量和安全性。

华楠

AI技术不断革新,数据标注与算法有哪些最新发展?

李科

技术发展侧重于系统化与智能化。系统化方面,自主研发的大型标注系统集成项目管理、流程控制、人员协调与数据安全功能。智能化方面,算法融入数据生产流程,提升标注效率与准确性,如通过算法快速识别不合格数据,优化反馈流程。

华楠

AI训练所需数据量的考量是什么?以ChatGPT为例,其训练数据规模是多少?

李科

不同场景对数据量的要求各不相同。以ChatGPT为例,它在训练过程中使用了约5000亿个token的大规模数据集。而在自动驾驶领域,即便是简单的车道线识别任务,所需数据量也可达到数十万帧至上百万帧。语音识别场景的训练数据量更为广泛,谷歌曾提及的语音识别模型使用了约1200万小时的数据,具体需求还需视场景而定。

华楠

面对ChatGPT的强大能力,国内AI研发企业的数据能力与之相比有何差距?

李科

ChatGPT的成就主要归功于其大规模数据集与基于人类反馈的强化学习技术。国内企业在数据获取方面相对容易,但自研数据集的开发和优化技术仍需努力。ChatGPT的独特优势在于其自研数据处理技术,这代表了国内AI企业需要进一步探索的方向。

华楠

传统数据标注依赖大量人工劳动,未来这一模式是否将成为主流?

李科

虽然数据标注常被视为纯粹的手动过程,但通过技术创新,如研发高效标注系统、优化算法与项目管理流程,人工标注的效率与质量均有所提升。短期内,人工标注在AI训练中仍扮演重要角色,但随着技术进步,自动化与半自动化的解决方案有望逐渐替代部分人工工作。

本文来源: 图灵汇 文章作者: 数智