近日,科技巨头谷歌和微软在一项重要的自然语言理解榜单中取得了超越人类的成绩,标志着人工智能领域的一个重要里程碑。
自然语言理解(NLU)任务在人工智能领域具有悠久的历史,被视为该领域的核心技术之一。由于自然语言本身的复杂性和多义性,实现高水平的自然语言理解极具挑战性。
为了评估人工智能模型在自然语言理解方面的表现,纽约大学、华盛顿大学、Facebook和DeepMind共同开发了一个名为SuperGLUE的基准测试。SuperGLUE继承了2018年推出的GLUE测试的特点,并且增加了更多复杂的任务,如问答、自然语言推理、指代消解和词义消歧等。
最新一轮的SuperGLUE测试中,微软的DeBERTa模型和谷歌的T5+Meena模型分别位列第一和第二,成绩均超过了人类基准线。这是人工智能首次在SuperGLUE测试中超越人类表现。
虽然在SuperGLUE测试中取得了显著成绩,但微软表示,DeBERTa模型目前还未能完全达到人类的自然语言理解水平。人类在处理新任务时能有效利用以往的经验,这是当前AI模型需要提升的能力。
微软的DeBERTa模型拥有15亿个参数,在SuperGLUE测试中的宏观平均分达到了89.9分,略高于人类基准线的89.8分。整体得分方面,DeBERTa模型也超过了人类基准线,以90.3分位居榜首。谷歌的T5+Meena模型紧随其后,得分为90.2,同样超过了人类基准线。
SuperGLUE测试中,人工智能模型面临的问题包括简单的因果推理任务,例如:“这个孩子对疾病产生了免疫力。”问题是:“这是由什么导致的?”选项是:“A.他避免接触这种疾病”或“B.他接种了这一疾病的疫苗”。这类问题对人类来说相对简单,但对人工智能模型来说则是一大挑战。
2021年1月6日,微软在其官方博客中详细介绍了DeBERTa模型的性能。DeBERTa是一种基于Transformer架构的神经语言模型,通过自监督学习方法对大量原始文本数据进行预训练。它旨在学习通用的语言表达方式,适用于多种自然语言理解任务。DeBERTa采用了分离注意力机制、增强的掩码解码器和虚拟对抗训练方法等新技术。
谷歌的T5+Meena模型同样表现出色,尽管谷歌团队尚未详细解释其模型成功的原因。不过,微软指出,谷歌的T5模型包含110亿个参数,而DeBERTa模型则更为节能,更易于压缩和部署。
微软计划将DeBERTa模型整合到下一代“图灵自然语言生成模型”(Turing NLRv4)中,并打算在未来向公众开放DeBERTa模型及其源代码。