苹果最新研究:现有 AI 大模型“更像是在记忆,而非真正的推理”

图灵汇官网

苹果机器学习团队近期发布的一项研究引发广泛关注。该研究指出,当前主流的人工智能模型在面对复杂任务时,并非真正具备推理能力,而是依赖于对已有数据的匹配和记忆。

研究人员对多个前沿模型进行了测试,包括 OpenAI 的 o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 以及谷歌的 Gemini Thinking。结果显示,这些模型虽然能在中等难度的任务中表现出色,但一旦遇到超出一定复杂度的问题,性能会急剧下降,甚至完全失效。

更值得注意的是,在处理高难度任务时,模型用于思考的 token 数量反而减少。这表明,即便拥有强大的计算资源,模型的推理过程仍然存在明显限制。

这项研究由 Parshin Shojaee 等人完成,题为《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》。研究团队采用了一种可控的解谜环境,能够精确控制任务复杂度,同时保持逻辑结构一致。这种方法不仅有助于分析最终答案,还能深入探讨模型内部的推理路径。

研究将模型表现分为三个阶段:低复杂度任务中,传统大模型表现更优;中等复杂度任务中,具备思维机制的模型更具优势;而在高复杂度任务中,所有模型都难以维持有效输出。

此外,研究发现,即使是在需要精确计算的场景下,现有模型也存在明显不足,无法稳定地跨不同任务进行推理。

整体来看,这项研究挑战了当前对大型推理模型的评估方式,强调需要更细致的实验设计来探索其真实能力。通过构建可控的测试环境,研究提供了对语言推理模型能力边界的新认识,也为未来的技术发展指明了方向。

研究团队表示,这些发现有助于更全面地理解当前模型的优缺点,同时也引发了关于人工智能推理本质的深入讨论。这对于相关技术的设计和应用具有重要参考价值。

本文来源: 图灵汇 文章作者: 刀马物语