学界 | DeepMind提出空间语言集成模型SLIM,有效编码自然语言的空间关系 ...

图灵汇官网

前不久,DeepMind 提出了一种新模型,该模型能够捕捉场景中的空间关系语义(如“在……后面”、“在……左边”等),并且该模型包含一个基于场景文本描述生成场景图像的多模态目标函数。实验结果表明,该模型的内部表征对语义上的描述变化(释义不变)具有鲁棒性,而视角不变性则是该系统的一个新特性。

论文题目为《从自然语言编码空间关系》。

论文链接:https://arxiv.org/pdf/1807.01670.pdf

摘要:自然语言处理在学习词汇语义方面取得了显著进步,但通过这些方法学到的表征无法捕捉现实世界中特定类型的信息,特别是空间关系的编码方式与人类的空间推理存在差异,并且缺乏视角变换不变性。本文展示了一个能够捕捉空间关系语义的系统,比如“在……后面”、“在……左边”。本文的关键贡献在于提出了一种新型多模态目标函数,可以从场景文本描述生成场景图像,同时引入了一个新的数据集。实验表明,内部表征对语义上的描述变化具有鲁棒性,而视角不变性是该系统的新兴特性。

引言: 人类可以通过自然语言唤起彼此脑海中的表征。当描述一个场景时,对话者可以形成心理模型并想象从不同角度看到的场景。然而,现有的模型无法整合视角。事实上,从单语语料库中提取的自然语言分布式表征无法理解语义等价,例如“A在B前面”等同于“B在A后面”。因此,为了接近人类水平的场景理解,建立能够捕捉这些不变性的表征是非常重要的。本文提出了一种多模态架构,旨在学习此类表征。为了训练和验证该模型,我们创建了一个包含大量3D场景的数据集,其中包括场景及其从不同角度的语言描述。我们评估了学到的表征,确保它们能够从未见过的角度生成图像,并符合自然语言描述,从而验证其泛化能力。我们还发现,我们学习的表征与人类对场景描述的相似性判断相吻合。

自然语言处理中,空间关系的研究主要集中在从文本中提取空间描述并将其映射到形式符号语言。同时,可视化空间描述的研究大量依赖人工创建的表征,缺乏分布式表征的通用跨任务优势。此外,空间概念的词汇化在不同语言和文化之间存在很大差异。人类在描述空间体验时表达几何属性的方式也更为复杂。尽管研究者们对人类类别空间关系的处理、感知和语言理解之间的关系进行了大量研究,但对于如何在计算上编码这种关系仍没有明确的结论。

数据集: 我们创建了一个大型3D场景数据集,包括场景及其从不同角度的语言描述。数据集的统计结果见表1。

模型描述: 本文提出了一种模型,能够将多个描述整合成单一表征,然后在多模态设置中利用该表征生成新数据。我们称之为空间语言整合模型(SLIM)。该模型受生成查询网络(Generative Query Network)启发,该网络能够集成多个视觉输入,生成同一环境的新视图。为了使表征能够编码视角无关的场景描述,我们在构建表征前不指定哪个视角会被解码。在实验中,向模型输入从n个不同视角看到的场景的文本描述,以编码成场景表征向量。然后,该向量被用来重建从新视角看到的场景图像。

实验结果: 我们通过实验验证了模型的有效性,并对其表征进行了分析。实验表明,内部表征对语义上的描述变化具有鲁棒性,视角不变性是该系统的新兴特性。

表征分析: 我们对学到的表征进行了详细分析,确保它们能够正确地反映场景和视角的变化。实验结果显示,表征能够很好地捕捉空间关系,并对视角变换具有不变性。

请注意,本文的详细内容可以在原文链接中找到。

本文来源: 图灵汇 文章作者: 彭芮