近几个月来,许多AI聊天机器人致力于增强所谓的推理能力,希望借此提供更加可靠的答案。然而,最近的测试发现,部分新型号的表现甚至不及旧版本。这种现象被称为“幻觉”,从AI诞生之初就一直存在,似乎很难完全解决。
所谓“幻觉”,指的是大型语言模型(LLM)产生的错误,比如将虚假信息误认为真实情况,或者生成看似合理但实际上与问题无关的内容。这些模型支持着诸如OpenAI的ChatGPT和谷歌的Gemini等系统。
根据OpenAI的技术报告,其最新的LLM测试显示,今年4月发布的O3和O4-mini模型在幻觉率方面明显高于去年年底推出的O1版本。例如,在整理人物公开信息时,O3有三分之一的概率出现幻觉,O4-mini接近一半,而O1仅为16%。
不仅是OpenAI面临这一挑战。美国Vectara公司的评估榜单表明,一些专注于推理的模型,如中国DeepSeek开发的DeepSeek-R1,相比早期版本,幻觉率也出现了两位数的增长。这类模型会在回答问题前展示推理过程。
OpenAI认为,推理机制本身没有问题,只是幻觉率偏高需要优化。公司正在努力减少O3和O4-mini中的幻觉发生概率。
然而,幻觉的存在可能会影响某些AI应用的效果。例如,如果一个模型经常出错且需要反复核实,它可能无法胜任高效的研究助手角色;而如果法律机器人引用虚假案例,可能会带来专业风险。
最初,人们相信随着版本升级,幻觉问题会逐步改善。但如今,最新版本较高的幻觉率让这一期望变得更加复杂。
Vectara的榜单按照模型总结文档时的事实准确性进行排名。Vectara的Forrest Sheng Bao表示,这表明推理型与非推理型模型的幻觉率差异不大,特别是针对OpenAI和谷歌的系统。但他也提到,具体幻觉率的高低并不如整体排名重要。
不过,这份榜单可能并非评判AI模型的最佳标准。它未能区分不同类型的幻觉,比如DeepSeek-R1尽管有14.3%的幻觉率,但大多数属于“良性”——答案虽然合乎逻辑且有事实依据,却未出现在指定文本中。
华盛顿大学的Emily Bender指出,这种排名忽视了LLM在其他任务中的表现,因此未必能全面反映其错误概率。她认为,用此榜单评价技术并非理想方式,因为LLM的设计初衷并非专门用于文本总结。
普林斯顿大学的Arvind Narayanan补充说,除了幻觉,模型还可能依赖不可靠的资源或过时的数据。增加训练数据和计算资源未必奏效。
最终,我们或许不得不接受容易出错的AI。Narayanan建议,在特定场景下使用这些工具仍然可以提高效率,但在核查事实时,人工调查可能更为稳妥。而Bender则主张,尽量避免完全依赖AI聊天机器人提供的信息。