《科学报告》最新刊发的研究揭示,大型语言模型(LLM)驱动的AI对话机器人在发散性思维任务上的表现,即设想日常用品的替代用途,可能超越多数普通人。这一测试旨在评估创造力,要求参与者提出与常规用途截然不同的新用法。尽管AI表现出色,但顶尖人类参与者仍能在某些方面超越机器人。
发散性思维是一种与创新紧密相关的思考模式,涉及为特定任务构思多样化的解决方案或创意。此过程通常通过“替代用途任务”(Alternate Uses Task, AUT)来衡量,要求受试者在限定时间内为常见物品找出多种非传统用途。评分标准包括流畅性、灵活性、原创性和细致性。
芬兰图尔库大学的Mika Koivisto与挪威卑尔根大学及斯塔万格大学的Simone Grassini共同领导的研究团队,利用AI大模型ChatGPT3、ChatGPT4和Copy.Ai完成了对绳子、盒子、铅笔、蜡烛等物品的AUT,并对比了AI与人类的成果。他们运用语义距离指标和创造性评分,以及匿名评审者的主观评价,对AI和人类的答案进行了量化分析。
研究发现,AI的回答在语义距离和创造性得分上分别达到了0.95和2.91,相较于人类的回答分别为0.91和2.47,显示出显著优势。然而,人类回答的得分差异更为显著,尤其是在最低得分上,人类的回答普遍优于AI。最杰出的人类回答在8个评分项中有7项超越了AI的最佳响应。
此项研究结果表明,当前的AI对话机器人在创造性的表现上已与普通人类相匹敌。研究者指出,未来的研究可能探索将AI集成到创造性过程中,以进一步提升人类的表现。此次研究仅聚焦于评估单一创造性任务的性能,未来的工作或将拓宽视野,探索AI如何与人类协同工作,促进更广泛的创新活动。