AIxiv 是机器之心推出的一个专注于学术和技术内容的平台,已发布超过2000篇文章,覆盖了全球众多知名高校和顶尖企业实验室,促进了学术交流与传播。如果你也有优秀的成果想分享,可以联系平台投稿。投稿邮箱为 liyazhou@jiqizhixin.com 和 zhaoyunfeng@jiqizhixin.com。
这项研究由上海交通大学、上海AI实验室以及北京航空航天大学共同完成。主要作者是上海交通大学的博士生任麒冰,其导师为马利庄教授,团队还包括北航研究生李昊、上海AI实验室研究员刘东瑞和青年科学家邵婧。
近年来,以OpenAI为代表的大规模语言模型在推理方面取得了重要突破,在代码编写和数学测试中表现出色。OpenAI认为,更强的推理能力有助于提升模型的安全性能,为安全性开辟了新途径。
不过,这种推理能力的提升真的能解决安全问题吗?推理能力越强,模型就越安全吗?最近,上海交通大学和上海人工智能实验室的研究人员对此提出了疑问。
他们的论文题为《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》,揭示了大型语言模型在多轮对话场景中的潜在安全威胁,并首次推出了一个多轮安全对齐的数据集。
论文地址:https://arxiv.org/abs/2410.10700
多轮安全对齐数据集:https://huggingface.co/datasets/SafeMTData/SafeMTData
代码开源:https://github.com/renqibing/ActorAttack
研究团队通过一个具体案例说明了攻击的过程。假如有人试图获取制造炸弹的方法,直接提问会被拒绝。但如果问一些看似无害的相关问题,比如某位恐怖分子的故事,模型会慢慢透露更多信息,最终可能泄露完整的制作方法。
研究显示,虽然OpenAI的模型起初能识别出有害意图,但在后续推理过程中却暴露了“危险思维”,详细介绍了制作方法,甚至还教人如何增强爆炸威力。这种方法在Harmbench上的攻击成功率达到了60%,这表明推理能力的提升并不一定能完全保证安全性。
此外,研究团队设计了一种名为ActorAttack的算法,利用大模型的已有知识自主寻找攻击线索,从而实现更高效的攻击。在Harmbench测试中,ActorAttack在多种模型上的攻击成功率接近80%。
为了系统地发现攻击线索,研究团队构建了一个概念网络,其中每个节点代表一类攻击线索。ActorAttack会在多轮对话中逐步引导模型,最终成功促使模型泄露有害信息。
研究团队还基于ActorAttack开源了首个针对多轮对话的安全对齐数据集。使用这个数据集微调过的模型,在处理多轮攻击时表现更加稳定。
最后,研究者讨论了社会科学理论在安全领域的应用,尤其是拉图尔的行动者-网络理论。通过构建网络模型,研究者能够更好地发现和运用攻击线索,从而提高攻击的效果和多样性。
这项研究指出了大型语言模型在多轮对话中面临的诸多安全难题,并为改进模型安全性提供了新的方向。