【行业资讯】AI可以识别图像,但它能理解标题吗?

图灵汇官网

2012年,人工智能专家们发现,通过向名为ImageNet的数据库提供数百万张带有标签的图像,计算机识别图像的能力显著增强。这一进展推动了计算机视觉技术的发展,使得使用ImageNet训练的模型在解决各种图像识别问题时表现出色。六年后,这种进步不仅为自动驾驶汽车在城市街道上的导航提供了可能,还使Facebook用户能够在照片中标记人物。

然而,在理解语言的人工智能研究领域,类似的突破一直未能实现。不过,最近由fast.ai、OpenAI和艾伦研究所的研究表明,这一现状可能会改变。他们研发的新模型可能为解决一系列未解难题带来希望。其中一位主要研发人员塞巴斯蒂安·鲁德将其称为语言领域的“ImageNet时刻”。

这些新模型的改进效果显著。截至目前,被广泛测试的语言模型之一是ELMo(Embeddings from Language Models)。今年春季,当艾伦研究所发布了ELMo时,它迅速颠覆了以前的挑战,例如在阅读理解和情感分析方面,人工智能能够解答类似SAT的问题。在通常进展缓慢的领域,ELMo的引入使得结果的准确性提升了25%,并在一次大型会议中获得了最佳论文奖。

加州大学伯克利分校的计算机科学教授丹·克莱因是最早尝试使用ELMo的研究人员之一。他和他的学生正在研究一种“选区解析器”,这是一种用来分析句子语法结构的基本工具。借助ELMo的帮助,克莱因突然获得了全球最精准的系统,不仅精度高,而且具有广泛的适用性。他说:“几年前,如果有人问我是否能达到现在的水平,我不会那么有信心。”

像ELMo这样的模型解决了语言学家长期以来面临的一个关键问题:缺乏标注的数据。训练神经网络需要大量人工标注的数据,但制作这些数据既耗时又昂贵。此外,许多语言现象无法通过标注数据完全捕捉。除了英语,其他语言的研究人员通常缺乏足够的标注数据来完成基本任务。

“我们永远无法获取足够的标注数据,”艾伦研究所ELMo项目负责人马修·彼得斯表示,“我们需要开发一种模型,能够处理未经标注的杂乱数据,并从中学习尽可能多的信息。”幸运的是,借助互联网,研究人员可以从维基百科、书籍和社交媒体等多种来源获取大量杂乱的数据。他们的策略是将这些数据输入神经网络,让网络自行识别模式,即所谓的“无监督”方法。他们期望这些模式能够揭示语言的一些基本特征,例如单词的含义或语法的基本框架。与使用ImageNet训练的模型类似,这样的语言模型可以通过微调来执行特定任务,如总结科学文章、分类电子邮件为垃圾邮件,甚至为故事创造一个满意的结局。

这种基于直觉的方法并不新鲜。近年来,研究人员利用“词嵌入”技术深入研究无标注数据,以了解词语之间的关系。新型模型的目标是进一步深入,捕捉从词到更高层次语言概念的信息。鲁德已经撰文讨论这些深层模型在多种语言问题中的巨大潜力,并期望新模型能够取代传统的“词嵌入”方法。

例如,ELMo通过结合更多上下文信息,以句子的规模而非单个词汇看待语言,从而改进了词嵌入。这种额外的上下文使模型能够更好地解析“May”作为月份和动词的区别,并且学习到语法。ELMo通过理解词的子结构,如前缀和后缀,进一步提升了性能。像彼得斯的团队所做的那样,为神经网络提供数十亿个单词非常有效。

然而,目前还不清楚模型具体学到了什么。由于深度神经网络的工作原理不透明,要回答这个问题相当困难。研究人员对图像识别系统为何表现优异的理解依然模糊。在一次会议上,彼得斯采用了经验主义的方法,在不同的软件设计和语言任务中测试了ELMo。他表示:“我们发现这些模型学习了语言的基本属性。”但他提醒,其他研究人员还需要测试ELMo,以确定它在不同任务中的稳健性以及可能存在的隐藏问题。

一种风险在于,用于训练模型的数据可能存在编码偏差,例如将医生标记为男性,护士标记为女性,正如以前的词嵌入一样。克莱因指出,尽管最初的ELMo结果令人兴奋,但目前尚不清楚这些结果能否进一步优化,也许需要通过提供更多数据或添加某些限制来实现。从长远来看,要让人工智能像人类一样流畅地阅读和交流,可能需要一种全新的方法。

本文来源: 图灵汇 文章作者: 舒尚娥