以AI对抗AI，大模型安全的“进化论”

投稿
APP
微信扫一扫获取更多

以AI对抗AI，大模型安全的“进化论”

未来学家

2023-09-16 00:00:00

图灵汇官网

标题：《大模型时代：科技发展与安全防范的双刃剑》

正文：

在互联网的高速发展背景下，2016年电梯广告上那句“互联网时代，我们是更危险，还是更安全？”的问题，如同一面镜子，映照出科技与安全之间的深刻博弈。随着互联网的蓬勃发展，病毒木马与网络诈骗的威胁始终伴随着安全思考和防范技术的建立，它们与科技发展并肩前行，形成了一种动态平衡。

步入大模型时代，这一问题再次浮现。在互联网被发明的十年后，互联网防护技术与产业链逐步完善，而大模型的诞生仅数月间，围绕模型安全、数据安全、内容安全以及AI伦理的讨论已成常态。近期，各界人士在诸如上海外滩大会、浦江创新论坛及国家网安周等场合，就大模型应用落地所引发的数据安全问题（包括数据投毒、信息泄露、版权风险等）、模型安全问题（如模型漏洞与恶意利用）、内容安全问题（生成内容可能触及违规、违法、色情等边界）进行了深入探讨。

如何确保大模型的安全运行？国内多家安全企业，如360、蚂蚁、深信服、奇安信、山石科技等，正积极研发针对大模型的安全技术。其中，“医生”与“保镖”的角色分工尤为重要。大模型在成长过程中，需有安全监控机制，确保其在最终投放市场前进行“体检”，并在市场流通中实施可控管理。

大模型安全的保护主要聚焦于三个关键环节： 1. 数据问题：数据采集过程需严谨，避免偏见与标签错误，防止数据被投毒，同时关注数据应用过程中的泄露与隐私保护。 2. 模型可控：对模型的可靠性、稳定性与鲁棒性进行严格检验，预防模型被恶意诱导产生风险内容。 3. 实际应用安全：在具体应用场景中，对不同用户群体的交互与应用进行审慎评估，特别是金融、医疗等领域对模型输出的准确性要求极高。

多位业内人士指出，模型安全需要构建一体化的技术防护体系，单一环节的控制不足以解决问题。借鉴互联网安全经验，诞生了如“病毒查杀”软件公司的先例。以蚂蚁集团为例，其“蚁天鉴”平台涵盖了大模型安全检测、风险防御等全方位功能，通过智能攻击对抗技术，检测潜在的风险，并实施二次过滤，确保输出内容合规。

对抗智能技术，如“对抗智能”路线，通过智能技术不断挑战大模型，观察其反应，以此判断风险。开发检测对抗样本的算法系统，旨在提升大模型的安全性，已成为行业趋势。例如，多伦多大学的CleverHans系统，通过制造误导性干扰，测试AI系统的安全漏洞。

“防治”策略同样重要，如“蚂蚁天鉴”的智能防御机制，能提前拦截恶意诱导，确保外部威胁无法影响大模型，同时自动识别风险信息并采取干预措施。数据源头的安全防护也至关重要，通过数据去毒、对齐训练与可解释性研究，保障模型的安全性。

在大模型安全领域，“快”与“慢”并存，即快速检测与长期可信性的平衡。在“快”的维度，实现快速检测、查杀，确保服务安全；在“慢”的维度，构建长期、体系化的安全机制，确保整体环境可控、可信。例如，通过文本安全训练，大模型能基于风险标准、知识与历史样本进行学习，提升风险检测能力，并结合安全知识图谱，优化检测模型。

面对AIGC生成内容的挑战，国际头部公司已开始布局，如OpenAI考虑在ChatGPT中加入数字水印，谷歌确保AI生成图像内嵌水印，英伟达推出FakeCatcher软件识别深度伪造视频。回溯互联网发展史，我们可以看到，只有在安全产业成熟后，互联网才能实现真正的繁荣。

大模型安全不仅考验着技术的边界，更是一场跨学科的挑战。它需要全社会共同协作，不断迭代和完善，以期达到伦理、数据与训练层面的新高度。在这个过程中，每个参与者都在探索如何在科技进步与安全之间找到最佳平衡点，以确保大模型技术的健康发展，使其惠及普通大众。

欢迎关注光锥智能，获取更多科技前沿知识与见解。