业界词嵌入所不能解决的自然语言理解:会话人工智能的方向在哪? ...

投稿
APP
微信扫一扫获取更多

业界词嵌入所不能解决的自然语言理解:会话人工智能的方向在哪? ...

黄曦灵

2018-08-19 20:58:56

图灵汇官网

近年来，我们看到各类设备上开始出现「智能」数字助理的身影。例如，在最近的消费电子展（CES）上，现代和丰田都推出了新型车载助手。尽管这些应用背后的技术不断进步，但用户对这些「智能」助理仍感到失望，因为这些助理并未达到用户的期望。

尽管数据驱动的方法在自然语言处理（NLP）方面取得了显著进展，自然语言理解仍然面临诸多挑战。Winograd Schema Challenge 提出了一个改进版的图灵测试，旨在评估机器是否真正具备智能。该测试包括一个典型的问题：“市议会拒绝许可游行示威，因为他们害怕暴力。”这里的“他们”是指市议会还是示威者？如果将“害怕”替换为“倡导”，则会对“他们”的理解产生影响。这是因为我们知道市议会更担心暴力行为，而示威者可能更倾向于暴力，这种背景知识对解决代词歧义至关重要，这对人工智能系统构成了巨大挑战。

Winograd Schema Challenge 的第一次比赛于去年七月举行，获胜算法的得分仅略高于随机猜测。

表征与理解

现在有一种技术可以表征自然语言中的单词，这种方法在情感分析和机器翻译等任务中表现出色。这种表征称为词嵌入（word embeddings），通过数学方法从大量样本中学习词汇的意义。词嵌入主要通过捕捉单词之间的关系来表征词义。例如，通过确保向量关系（如向量“国王”-“男性”+“女性”=“王后”）符合逻辑，一组良好的词嵌入可以反映出“国王是男性，王后是女性”的概念。

这种向量化的表征是谷歌新翻译系统的核心，该系统不仅能表征整个句子，还能有效降低翻译错误率高达55%至85%，并支持零样本翻译（zero-shot translation），即在没有训练数据的情况下实现两种未见过的语言之间的翻译。然而，即使有了这些技术进步，NLP领域的一些专家仍然持怀疑态度。Oren Etzioni 就曾讽刺道：“当人工智能无法确定句子中的‘它’指的是什么时，它并不会改变世界。”

因此，尽管人工智能能够在没有专门训练的情况下翻译语言，但它仍无法准确识别句子中的代词。

语义并非直接获取

当我们了解到词嵌入是如何工作的时，可能会认为它们真正捕捉到了意义。然而，事实并非如此。这些表征是基于语言样本的学习结果，而语言本身是由意义驱动的。因此，我们的表达自然地反映了这些意义。但人工智能系统通过词嵌入学习到的，并不是直接意义上的理解。

对于大多数自然语言处理任务而言，这种间接获取意义的方式并不重要。例如，在翻译过程中，理解句子中的“它”指的是什么并不直接影响翻译的准确性。但在构建持续性对话的AI时，这一点变得至关重要。用于训练NLP任务的数据往往不包含消除词义歧义所需的信息，而这些信息主要来自对现实世界的认知。如何在AI系统中融入这些现实世界的实体或常识知识，仍是一个待解的问题。

约束条件下的操作

许多顶尖人才正在研究人工智能的自然语言理解问题。例如，在NIPS 2016会议上，OpenAI的研究者们提出了一个关于情境化和目标驱动的语言学习的框架。斯坦福大学的研究者们也在探索交互式语言学习，认为与现实世界的互动对于学习语义至关重要。有趣的是，他们的系统向Terry Winograd的SHRDLU系统致敬，后者是一个早期的对话系统，它限制自己只能描述由积木组成的世界。

对于任何想开发持续性对话AI的人来说，这种限制仍然是必要的。亚马逊的Lex和IBM的对话服务允许开发者设定应用的操作规则，定义应用可以执行的意图及其对应的用户请求方式。然而，有时这种对话AI甚至无法理解简单的代词，这表明当前技术仍有许多局限性。