“喂养”AI,大数据从哪来

图灵汇官网

合规性、高质量与多样性的平衡

随着人工智能技术的不断发展,大模型训练对高质量数据的需求日益增加。如何确保训练数据既合规又高质量?以下是三个关键原则:

首先,数据采集和使用必须严格遵守法律法规,尊重原创精神和知识产权。合规的数据来源不仅是对创作者权益的保障,也是AI技术健康发展的基石。企业可以从公开数据集中获取数据,如ImageNet等图像数据集,这些数据集通常由学术机构、政府组织或大型企业公开发布。此外,也可以通过与合作伙伴共享数据、购买专业数据服务等方式获取训练数据。这些途径虽然可能需要更多成本投入,但能有效规避法律风险,同时获得高质量的数据资源。

其次,企业应建立完善的信息获取流程,确保任何信息的采集都在明确目的和合法框架内进行。此外,要尽最大努力保护隐私和数据安全。涉及个人隐私的数据,如用户的身份信息、联系方式等,都需要进行严格的匿名化和加密处理。在使用他人的知识产权时,如专利、商标、著作权等,企业应严格遵守相关法律法规,确保获得权利人的明确许可,并按约定支付相应的使用费用。

最后,数据质量是训练AI模型的关键因素。高质量的数据不仅能提高模型的准确性,还能增强模型的泛化能力,使其更好地适应各种场景。企业还应注意数据标注的准确性,以免影响模型的训练效果。数据的多样性和代表性也不应被忽视。可以通过收集不同来源、不同类型的数据来增加数据的多样性,同时通过数据增强技术来扩充数据集,提高模型的泛化能力。数据的时效性和更新频率也非常重要,应定期更新数据集,确保模型的时效性和准确性,以适应新的挑战和需求。

三种方式获取训练数据

对于AI训练数据的获取,企业可以选择三种主要途径:开源数据集、自身积累的数据和行业合作伙伴提供的高质量数据。

首先是开源数据集。这些数据集通常由学术机构、政府组织或企业公开发布,涵盖各种类型的数据,如图像、文本、音频、视频等。企业可以在此基础上进行二次处理、清洗加工和人工抽检标注,形成高质量的训练数据集。其次是企业自身积累的数据。例如,一家企业可以利用其积累的大量专业运维案例、专业报告、日志和专业问题回复等数据,在保证脱敏和遵守数据许可协议的前提下,用于大模型的继续训练和精调。第三种方式是来自行业合作伙伴的高质量数据。通常采用“合规数据授权+收益分成”的模式,共同建设具备行业数据优势的大模型底座。

值得注意的是,随着大模型的快速迭代,公共数据正在迅速耗尽。随之而来的挑战是如何合法使用私有数据。用户生成的内容,包括公开发表的内容、点赞转发等记录数据,对于保持最新信息和拓展知识范围具有重要意义。但需要建立健全的机制,在遵守相关法律法规、保证隐私安全、防止滥用的前提下,为用户生产内容提供共享或有偿交易的可能性。当前面临的主要挑战包括:

首先,高质量数据的成本非常高。伴随着公开数据的“枯竭”,如何收集和使用更多的高质量数据,并进行加工和标注,仍然是一个重要选择。这需要企业投入更多成本,并协同更多专业人士参与精细的标注工作。

其次,大模型训练周期较长,且外部知识飞速更新。如何解决“知识过期”的问题,需要通过检索增强生成的方式,即在大模型做出回应之前,通过检索相关知识,提供参考信息,为大模型回答的过程补充新知识。

第三,由于数据量庞大且来源多样,数据中可能存在自相矛盾、不合规、偏见冒犯等情况的内容。这可能导致训练得到的模型底座存在输出带有偏见、泄露隐私信息的可能性。因此,企业需要重视对模型数据的审查和脱敏工作,综合考虑技术、政策、伦理和法律法规多方因素,持续改善相关流程。

企业要发展,也要履行责任

无数据,不AI。AI大模型的迭代发展离不开大体量优质数据的支持。“数据淘金”已成为AI产业高质量发展的必由之路,优质数据也成为产业竞相争夺的稀缺资源。优质的数据不仅关乎发展,更关乎安全。

例如,《布莱奇利宣言》中提到,AI可能会生成欺骗性内容,存在被有意误用或无意控制的风险。破解上述风险的途径同样来自于数据——通过获得“金子”一样的好数据来训练大模型等途径,来进行相关破解或应对。

然而,AI的发展并非孤立的。尽管在发展生成式AI市场时,存在过多限制数据使用的情况,但这并不意味着企业可以忽视合规性和数据安全。科技公司为了更好地训练大模型,仍需严格遵守现有法律规则,保护他人隐私和知识产权。

例如,近年来多起诉讼案件,如针对OpenAI、GitHub的集体诉讼,以及针对Stability AI和美国万名作家的诉讼,都指向利用未经授权使用作品训练AI产品或在开源社区中可能侵害他人版权的问题。这些诉讼至今仍在激烈讨论,尚未形成定论。此外,科技公司未经用户允许,从手机应用程序中收集用户的音乐偏好、图像信息、位置信息、财务数据乃至私人对话等,这些行为都存在侵权风险。

上述案例和争议要求相关企业在发展的同时,严格遵循现有法律规则。我国于2023年7月颁布的《生成式人工智能服务管理暂行办法》,明确规定了生成式人工智能服务提供者的训练数据处理活动要求,即应使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形等内容。

企业作为AI大模型训练的主体,需更加注重义务和履责,充分考虑对于已有著作权人和个人信息主体的权利保障与利益平衡。需要注意的是,相关企业义务是全方位、体系化的,包括但不限于隐私保护义务、个人信息保护义务、数据安全保障义务和数据质量保障义务。

本文来源: 图灵汇 文章作者: 丁若轩