“喂养”AI，大数据从哪来

投稿
APP
微信扫一扫获取更多

“喂养”AI，大数据从哪来

丁若轩

2024-04-14 08:53:53

图灵汇官网

合规性、高质量与多样性的平衡

随着人工智能技术的不断发展，大模型训练对高质量数据的需求日益增加。如何确保训练数据既合规又高质量？以下是三个关键原则：

首先，数据采集和使用必须严格遵守法律法规，尊重原创精神和知识产权。合规的数据来源不仅是对创作者权益的保障，也是AI技术健康发展的基石。企业可以从公开数据集中获取数据，如ImageNet等图像数据集，这些数据集通常由学术机构、政府组织或大型企业公开发布。此外，也可以通过与合作伙伴共享数据、购买专业数据服务等方式获取训练数据。这些途径虽然可能需要更多成本投入，但能有效规避法律风险，同时获得高质量的数据资源。

其次，企业应建立完善的信息获取流程，确保任何信息的采集都在明确目的和合法框架内进行。此外，要尽最大努力保护隐私和数据安全。涉及个人隐私的数据，如用户的身份信息、联系方式等，都需要进行严格的匿名化和加密处理。在使用他人的知识产权时，如专利、商标、著作权等，企业应严格遵守相关法律法规，确保获得权利人的明确许可，并按约定支付相应的使用费用。

最后，数据质量是训练AI模型的关键因素。高质量的数据不仅能提高模型的准确性，还能增强模型的泛化能力，使其更好地适应各种场景。企业还应注意数据标注的准确性，以免影响模型的训练效果。数据的多样性和代表性也不应被忽视。可以通过收集不同来源、不同类型的数据来增加数据的多样性，同时通过数据增强技术来扩充数据集，提高模型的泛化能力。数据的时效性和更新频率也非常重要，应定期更新数据集，确保模型的时效性和准确性，以适应新的挑战和需求。

三种方式获取训练数据

对于AI训练数据的获取，企业可以选择三种主要途径：开源数据集、自身积累的数据和行业合作伙伴提供的高质量数据。

首先是开源数据集。这些数据集通常由学术机构、政府组织或企业公开发布，涵盖各种类型的数据，如图像、文本、音频、视频等。企业可以在此基础上进行二次处理、清洗加工和人工抽检标注，形成高质量的训练数据集。其次是企业自身积累的数据。例如，一家企业可以利用其积累的大量专业运维案例、专业报告、日志和专业问题回复等数据，在保证脱敏和遵守数据许可协议的前提下，用于大模型的继续训练和精调。第三种方式是来自行业合作伙伴的高质量数据。通常采用“合规数据授权+收益分成”的模式，共同建设具备行业数据优势的大模型底座。

值得注意的是，随着大模型的快速迭代，公共数据正在迅速耗尽。随之而来的挑战是如何合法使用私有数据。用户生成的内容，包括公开发表的内容、点赞转发等记录数据，对于保持最新信息和拓展知识范围具有重要意义。但需要建立健全的机制，在遵守相关法律法规、保证隐私安全、防止滥用的前提下，为用户生产内容提供共享或有偿交易的可能性。当前面临的主要挑战包括：

首先，高质量数据的成本非常高。伴随着公开数据的“枯竭”，如何收集和使用更多的高质量数据，并进行加工和标注，仍然是一个重要选择。这需要企业投入更多成本，并协同更多专业人士参与精细的标注工作。

其次，大模型训练周期较长，且外部知识飞速更新。如何解决“知识过期”的问题，需要通过检索增强生成的方式，即在大模型做出回应之前，通过检索相关知识，提供参考信息，为大模型回答的过程补充新知识。

第三，由于数据量庞大且来源多样，数据中可能存在自相矛盾、不合规、偏见冒犯等情况的内容。这可能导致训练得到的模型底座存在输出带有偏见、泄露隐私信息的可能性。因此，企业需要重视对模型数据的审查和脱敏工作，综合考虑技术、政策、伦理和法律法规多方因素，持续改善相关流程。

企业要发展，也要履行责任

无数据，不AI。AI大模型的迭代发展离不开大体量优质数据的支持。“数据淘金”已成为AI产业高质量发展的必由之路，优质数据也成为产业竞相争夺的稀缺资源。优质的数据不仅关乎发展，更关乎安全。

例如，《布莱奇利宣言》中提到，AI可能会生成欺骗性内容，存在被有意误用或无意控制的风险。破解上述风险的途径同样来自于数据——通过获得“金子”一样的好数据来训练大模型等途径，来进行相关破解或应对。

然而，AI的发展并非孤立的。尽管在发展生成式AI市场时，存在过多限制数据使用的情况，但这并不意味着企业可以忽视合规性和数据安全。科技公司为了更好地训练大模型，仍需严格遵守现有法律规则，保护他人隐私和知识产权。

例如，近年来多起诉讼案件，如针对OpenAI、GitHub的集体诉讼，以及针对Stability AI和美国万名作家的诉讼，都指向利用未经授权使用作品训练AI产品或在开源社区中可能侵害他人版权的问题。这些诉讼至今仍在激烈讨论，尚未形成定论。此外，科技公司未经用户允许，从手机应用程序中收集用户的音乐偏好、图像信息、位置信息、财务数据乃至私人对话等，这些行为都存在侵权风险。

上述案例和争议要求相关企业在发展的同时，严格遵循现有法律规则。我国于2023年7月颁布的《生成式人工智能服务管理暂行办法》，明确规定了生成式人工智能服务提供者的训练数据处理活动要求，即应使用具有合法来源的数据和基础模型；涉及知识产权的，不得侵害他人依法享有的知识产权；涉及个人信息的，应当取得个人同意或者符合法律、行政法规规定的其他情形等内容。

企业作为AI大模型训练的主体，需更加注重义务和履责，充分考虑对于已有著作权人和个人信息主体的权利保障与利益平衡。需要注意的是，相关企业义务是全方位、体系化的，包括但不限于隐私保护义务、个人信息保护义务、数据安全保障义务和数据质量保障义务。