AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%

图灵汇官网

人工智能(AI)在编程等方面表现突出,但最近的一项研究发现,它在解答高级历史考题时仍有不足之处。这项由奥地利复杂科学研究所(CSH)领导的研究,主要考察了三个顶级大型语言模型(LLMs)的表现,分别是 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini。

研究团队设计了一种名为“Hist-LLM”的评估工具,利用 Seshat 全球历史数据库来确认答案的正确性。这个数据库包含从古埃及到现代的大量历史信息。

研究结果在上个月的 NeurIPS 大会上发布,显示即便是最先进的 GPT-4 Turbo 模型,准确率也只有 46%,接近随意猜测的水平。伦敦大学学院的计算机科学副教授 Maria del Rio-Chanona 表示,虽然这些模型能很好地处理基础事实,但在复杂的博士级历史课题面前,它们的能力还有限。

研究中举了一些模型答错的例子。比如,当被问及古埃及某个特定时代是否存在鳞甲时,GPT-4 Turbo 回答说是,但实际上这种技术要到 1500 年后才传入埃及。Maria del Rio-Chanona 解释说,LLMs 在处理这类专业历史问题时表现欠佳,因为它们倾向于依赖常见的历史资料,而忽视较冷门的内容。

另一个案例是,研究者询问 GPT-4 古埃及在某一时期是否有职业军队。正确的答案是没有,但模型却误认为存在。Maria del Rio-Chanona 认为,这是因为关于其他古代国家如波斯拥有常备军的信息更为普及,而古埃及的相关记录较少。她提到,当人们经常听到 A 和 B 的信息,而 C 只被提到一次时,就容易忽略 C。

此外,研究发现,OpenAI 和 Llama 模型在撒哈拉以南非洲等区域的表现较弱,这可能反映了训练数据中的偏见。CSH 研究员 Peter Turchin 强调,这些结果意味着在一些领域,LLMs 还不能完全取代人类。

不过,研究者对 LLMs 在未来支持历史研究的潜力依然抱有信心。他们正在努力通过加入更多来自代表性不足地区的数据以及提出更复杂的问题来优化评估工具。论文指出:“尽管我们的研究指出了 LLMs 需要改进的地方,但也展现了这些模型在历史研究中的潜在价值。”

本文来源: 图灵汇 文章作者: 慧慧聊区块