AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

图灵汇官网

在阅读这篇文章之前,让我们先做一个简单的游戏:在心里选择一个 1 到 10 之间的整数。接着想象有人问你:“你想的是 5 吗?”如果你的心中所想正好是这个数字,你可能会不假思索地回答“是”,否则就会回答“不是”。这个小游戏看似简单,实际上反映了大脑的一个重要功能——工作记忆。它帮助我们保持某个想法,并随时与外界的问题进行比对,从而给出一致的答案。

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

图 1 展示了一个例子:当 ChatGPT 声称自己已想好一个数字,并告诉我们这个数字不是 4 时,我们应该如何判断它是否在撒谎?

同样的小游戏,人工智能模型会有怎样的表现呢?它们能否像人类一样,在心中记住一个数字而不直接说出来?我们又该如何验证这一点?

最近,来自约翰·霍普金斯大学和中国人民大学的研究团队设计了三个实验,巧妙地将关键线索隐藏在上下文之外,迫使模型仅依赖记忆来回答问题,以此检验它们是否真的能保存信息。

论文标题:LLMs Do Not Have Human-Like Working Memory
论文链接:https://arxiv.org/abs/2505.10571
作者:Jen-Tse Huang(任)、Kaiser Sun、Wenxuan Wang、Mark Dredze

什么是工作记忆?

在人类的大脑中,工作记忆是一种临时存储系统,能够保存刚获取的信息几秒到几十秒的时间,并在此基础上进行复杂的思维活动,比如推理、计算和对话。如果没有工作记忆,人们会变得前后矛盾,无法进行心算,也无法顺畅交流。

人工智能模型通常被称为“会说话的大脑”。如果它们缺乏这种能力,那么距离实现真正的通用人工智能还有很长的路要走。

过去,研究人员常用 N-Back 任务来评估人工智能模型的工作记忆。在这个任务中,参与者需要观察或聆听一串字母或数字,并连续回答当前的字母或数字是否与 N 步之前的相同。随着 N 值的增加,任务难度也随之上升,这种方法被广泛应用于神经成像和认知心理学实验。

然而,直接用这种方法测试大型语言模型并不合适。因为人类在测试时只能看到当前的字母或数字,而大型语言模型的输入窗口本身就包含了所有的历史标记,所谓的“回顾 N 步”实际上是简单的文本匹配,而不是真正的记忆调用。

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

图 2:用于评估人类工作记忆的经典任务——N-Back 任务。参与者观察或聆听一系列字母或数字,并连续回答当前的字母或数字是否与 N 步之前的相同。

三大实验揭示 LLM 的“记忆漏洞”

实验 1:数字猜谜游戏

任务过程:首先让大模型在心中选定一个数字,然后反复询问“你想的是 X(1 到 10)吗?”重复 2000 次。统计每个数字被回答为“是”的频率。

评估标准:对于 1 到 10 的所有数字,回答“是”的概率总和必须等于 1,也就是说,至少有一个数字会被正确识别。

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

图 3:17 个模型对每个数字回答“是”的分布情况。

研究团队测试了来自五个模型家族的 17 个模型,结果发现大多数模型在所有情况下都倾向于回答“否”(即在图表中显示为零)。进一步统计每个模型的概率总和:

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

图 4:17 个模型对每个数字回答“是”的概率总和。

研究结果显示,只有 GPT-4o-2024-08-06 和 LLaMA-3.1-8B 版本的表现接近人类水平,其余模型无论属于哪个家族,无论是否具备推理能力,几乎全部失败。这表明这些模型并没有真正记住数字。

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

图 5:GPT-4o-2024-08-06 模型对其他数字范围回答“是”的分布情况。

有趣的是,在所有测试中,LLM 对数字 7(甚至是 17、37)表现出特别的兴趣,看来“人类幸运数字”的迷信也影响了这些模型!

实验 2:是非问答游戏

任务过程:在心中选定一个具体的物品(例如“铅笔”),然后通过回答“是”或“否”来解决一系列比较问题,比如“它比 X 重吗?”、“比 Y 长吗?”、“比 Z 大吗?”?

人类是如何完成这项任务的呢?每当遇到新的问题时,他们会将心中的物品与问题中的物品进行比较,轻松得出答案。但如果缺乏工作记忆,每次面对新问题时,他们只能回头检查之前的所有问题及其答案,才能避免前后矛盾。因此,这种情况下推理将变得极为困难。

研究团队向大模型提出了 250 个问题,并统计了模型在出现自相矛盾之前能够回答多少个问题。

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

图 6:GPT-4o-2024-08-06 和 GPT-4o-Mini-2024-07-18 模型在自相矛盾前回答问题数量的频率分布图。

结果显示,在问到第 2040 个问题时,高级别的 GPT-4 模型开始暴露出问题:“比汽车大”却又“比足球小”的矛盾层出不穷。尽管长上下文推理能力更强的 GPT-4o 在通过次数和平均答题数量上超过了较弱版本的 GPT-4o-Mini,但在总共 200 次测试中也只有 27 次成功通过。这表明大模型更多依赖长上下文能力完成任务,而非稳定的工作记忆。

实验 3:数学魔术

任务过程:心中记住四个随机数字(例如 3529),然后按照以下步骤依次执行十次心算操作:复制、置底、插入、删除……最终理论上应该剩下两个相同的数字。

研究团队沿用了实验 1 中的 17 个模型,统计它们最终剩下两个相同数字的概率。

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

AI记忆伪装被戳穿!GPT、DeepSeek等17款主流大模型根本记不住数字

图 7:17 个模型在数学魔术中的准确率,下图为使用 CoT 的模型以及推理模型(LRM)。

结果表明,主流模型的正确率普遍很低。即使加入 CoT 方法也没有显著改善。DeepSeekR1 以 39% 的成绩勉强领先,但仍有很大的改进空间。值得注意的是,模型的表现与实验 1 一致,LLaMA-3.1-8B 的效果最佳。

小结

论文测试了包括 GPT、o1/3/4、LLaMA、Qwen 和 DeepSeek 在内的 17 个热门模型,无一通过三项测试:

LLaMA3.18B 在数字猜谜游戏中表现最好,概率和接近 0.98,在数学魔术中无需 CoT 即可优于 o1。

DeepSeekR1 在数学魔术中取得了 39.3% 的最高正确率,但仍远未达到合格线。

更大的规模和更长的推理链并不意味着更好的工作记忆;某些升级版本甚至出现了倒退。

一句话总结:目前没有任何开源或闭源的大型语言模型能够通过“三关”测试。这意味着什么?

对话更加真实?要想让 AI 像人类一样“边思考边交谈”,就必须为其加入真正的工作记忆机制,而不仅仅是无限的上下文窗口。

长链推理?现有的 CoT 更像是把“草稿”写进了提示中,并非模型在脑海中进行运算。

新的研究方向!或许可以从认知科学中汲取灵感,引入可读写的“内存格”;或者利用强化学习、神经模块化等技术,使模型学会在体内保存并操作隐变量。

本文来源: 互联网 文章作者: CCAI2019
    下一篇

导读:芯东西(公众号:aichip001)作者 | ZeR0编辑 | 漠影芯东西6月15日报道,AMD正将自身定位于人工智能(AI)计算革命的最前沿。在刚刚落幕的AI盛会AMD Advancing A