苹果近期发布的一篇关于人工智能推理能力的研究论文,引发了学界和科技界的广泛讨论。这篇题为《The Illusion of Thinking》的文章指出,即使是当前最先进的大型推理模型,在面对复杂任务时也容易出现严重失误。然而,这一结论很快遭到质疑,有专家认为其研究方法存在明显缺陷。
论文中提到的一个典型案例是汉诺塔问题。这是一个经典的算法问题,要求将一组圆盘从一个柱子移动到另一个柱子,过程中每次只能移动一个圆盘,且不能将较大的圆盘放在较小的圆盘上。苹果团队表示,现有模型在处理这类任务时表现不佳,甚至无法完成基本操作。
对此,Open Philanthropy 的研究员 Alex Lawsen 发表了反驳意见。他认为,苹果的结论更多源于实验设计上的问题,而非模型本身的能力不足。他指出,论文中的测试方式可能忽略了实际使用中的一些关键因素,比如模型的输出长度限制。
Lawson 提出几个核心问题。首先,他在分析中发现,许多模型在处理超过一定规模的任务时,会因为输出长度达到上限而无法继续生成完整答案。例如,某些模型在处理 8 盘以上的汉诺塔问题时,会主动停止输出以节省资源。这种行为被苹果视为失败,但其实更多是系统设定的限制。
其次,苹果在设计测试时引入了一些无解的问题。例如,某些过河问题的设定本身就无法满足条件,导致模型无法给出有效解答。这种情况下,模型拒绝回答本应是合理的反应,却被视为错误。
还有一个问题是评估方式过于机械。苹果采用的自动化评估工具只关注是否生成完整的步骤列表,而忽略了模型是否真正理解了问题。如果模型因输出限制提前终止,或选择了更高效但不完全符合格式的答案,都会被误判为失败。
为了验证自己的观点,Lawson 重新设计了一套测试方案。他不再要求模型逐一列出所有步骤,而是让它们生成一个能够自动计算解法的函数。结果令人意外:多个主流模型,包括 Claude、Gemini 和 OpenAI 的 o3,都能正确生成 15 盘汉诺塔问题的算法代码,远超苹果报告中提到的“零成功”标准。
这表明,当测试方式更加合理时,大型推理模型确实具备处理高复杂度任务的能力。问题或许并不在于模型本身,而在于如何设计测试和评估方法。
随着 AI 技术的不断进步,如何准确衡量其推理能力成为一个重要课题。未来的测试设计需要更加全面,既要考虑模型的实际性能,也要尊重其运行限制。只有这样,才能更真实地反映 AI 的潜力与局限。