【行业资讯】AI可以识别图像,但它能理解标题吗?

投稿
APP
微信扫一扫获取更多

【行业资讯】AI可以识别图像,但它能理解标题吗?

舒尚娥

2018-09-12 18:30:47

2012年，人工智能专家们发现，通过向名为ImageNet的数据库提供数百万张带有标签的图像，计算机识别图像的能力显著增强。这一进展推动了计算机视觉技术的发展，使得使用ImageNet训练的模型在解决各种图像识别问题时表现出色。六年后，这种进步不仅为自动驾驶汽车在城市街道上的导航提供了可能，还使Facebook用户能够在照片中标记人物。

然而，在理解语言的人工智能研究领域，类似的突破一直未能实现。不过，最近由fast.ai、OpenAI和艾伦研究所的研究表明，这一现状可能会改变。他们研发的新模型可能为解决一系列未解难题带来希望。其中一位主要研发人员塞巴斯蒂安·鲁德将其称为语言领域的“ImageNet时刻”。

这些新模型的改进效果显著。截至目前，被广泛测试的语言模型之一是ELMo（Embeddings from Language Models）。今年春季，当艾伦研究所发布了ELMo时，它迅速颠覆了以前的挑战，例如在阅读理解和情感分析方面，人工智能能够解答类似SAT的问题。在通常进展缓慢的领域，ELMo的引入使得结果的准确性提升了25%，并在一次大型会议中获得了最佳论文奖。

加州大学伯克利分校的计算机科学教授丹·克莱因是最早尝试使用ELMo的研究人员之一。他和他的学生正在研究一种“选区解析器”，这是一种用来分析句子语法结构的基本工具。借助ELMo的帮助，克莱因突然获得了全球最精准的系统，不仅精度高，而且具有广泛的适用性。他说：“几年前，如果有人问我是否能达到现在的水平，我不会那么有信心。”

像ELMo这样的模型解决了语言学家长期以来面临的一个关键问题：缺乏标注的数据。训练神经网络需要大量人工标注的数据，但制作这些数据既耗时又昂贵。此外，许多语言现象无法通过标注数据完全捕捉。除了英语，其他语言的研究人员通常缺乏足够的标注数据来完成基本任务。

“我们永远无法获取足够的标注数据，”艾伦研究所ELMo项目负责人马修·彼得斯表示，“我们需要开发一种模型，能够处理未经标注的杂乱数据，并从中学习尽可能多的信息。”幸运的是，借助互联网，研究人员可以从维基百科、书籍和社交媒体等多种来源获取大量杂乱的数据。他们的策略是将这些数据输入神经网络，让网络自行识别模式，即所谓的“无监督”方法。他们期望这些模式能够揭示语言的一些基本特征，例如单词的含义或语法的基本框架。与使用ImageNet训练的模型类似，这样的语言模型可以通过微调来执行特定任务，如总结科学文章、分类电子邮件为垃圾邮件，甚至为故事创造一个满意的结局。

这种基于直觉的方法并不新鲜。近年来，研究人员利用“词嵌入”技术深入研究无标注数据，以了解词语之间的关系。新型模型的目标是进一步深入，捕捉从词到更高层次语言概念的信息。鲁德已经撰文讨论这些深层模型在多种语言问题中的巨大潜力，并期望新模型能够取代传统的“词嵌入”方法。

例如，ELMo通过结合更多上下文信息，以句子的规模而非单个词汇看待语言，从而改进了词嵌入。这种额外的上下文使模型能够更好地解析“May”作为月份和动词的区别，并且学习到语法。ELMo通过理解词的子结构，如前缀和后缀，进一步提升了性能。像彼得斯的团队所做的那样，为神经网络提供数十亿个单词非常有效。

然而，目前还不清楚模型具体学到了什么。由于深度神经网络的工作原理不透明，要回答这个问题相当困难。研究人员对图像识别系统为何表现优异的理解依然模糊。在一次会议上，彼得斯采用了经验主义的方法，在不同的软件设计和语言任务中测试了ELMo。他表示：“我们发现这些模型学习了语言的基本属性。”但他提醒，其他研究人员还需要测试ELMo，以确定它在不同任务中的稳健性以及可能存在的隐藏问题。

一种风险在于，用于训练模型的数据可能存在编码偏差，例如将医生标记为男性，护士标记为女性，正如以前的词嵌入一样。克莱因指出，尽管最初的ELMo结果令人兴奋，但目前尚不清楚这些结果能否进一步优化，也许需要通过提供更多数据或添加某些限制来实现。从长远来看，要让人工智能像人类一样流畅地阅读和交流，可能需要一种全新的方法。