重磅|谷歌开源最精确自然语言解析器SyntaxNet的深度解读:一次关键进步以及 ...

图灵汇官网

在自然语言理解的研究中,处理语言歧义一直是一个难题。SyntaxNet 结合了神经网络和搜索技术,显著提升了对歧义问题的处理能力。这款工具能够像训练有素的语言学家一样分析简单的句法结构。今天,谷歌宣布开源了SyntaxNet,并发布了专门针对英语的预训练解析程序Parsey McParseface。

尽管当前的虚拟助手如Siri可以完成一些简单的任务,例如设置闹钟,但它们在处理复杂的语言表达时显得力不从心。科技巨头、创业公司和学术机构都在努力让计算机更好地理解自然语言,而深度神经网络的进步为此提供了重要支持。谷歌、脸书和微软等公司已开始利用深度神经网络来识别图片中的物体,并提高对用户语音命令的理解能力。

谷歌自然语言理解和机器学习领域的负责人Fernando Pereira表示,大多数用户通过语言与公司进行交互,无论是输入文字还是口头交流。因此,理解用户的意图对于提供优质服务至关重要。谷歌开源的SyntaxNet及其英语版本的Parsey McParseface,为我们展示了自然语言理解技术的快速发展前景。

SyntaxNet 和 Parsey McParseface

SyntaxNet是一款基于深度神经网络的句法分析工具,它能够深入分析句子,识别每个词汇的角色,并理解单词如何组合成有意义的句子。这款系统经过大量精心标记的数据训练,能够准确解析句子中的语法结构。与Facebook采用的方法不同,后者主要依赖大量的未标记数据,而谷歌则围绕人类专家进行开发。

SyntaxNet采用了谷歌的深度学习框架TensorFlow,是迄今为止使用TensorFlow开发的最复杂和最先进的组件之一。此外,谷歌还提供了一个预训练的英语解析程序Parsey McParseface,它能自动将文本分解成句法成分,从而帮助计算机更好地理解模糊的请求或命令。

准确性达到94%

根据谷歌的研究,Parsey McParseface在处理英文新闻专线的句子时,准确率达到94%,这一成绩超过了谷歌之前的最佳表现,也优于其他研究方法。虽然尚未有具体的人类表现数据,但据内部估计,受过专业训练的语言学家能达到96%-97%的准确率。这意味着SyntaxNet正在逐步接近人类的理解水平,尤其是在处理编辑良好的文本时。

SyntaxNet 与 SpaCy 和 CoreNLP 的比较

当被问及SyntaxNet与SpaCy和CoreNLP的对比时,谷歌产品经理Dave Orr表示,这取决于具体的需求。SyntaxNet(特别是其英语模型Parsey McParseface)在依存分析方面表现出色。SpaCy和斯坦福的CoreNLP则涵盖了更多的功能,如命名实体识别和情感分析。

如果只需要一个高效的分析器,SyntaxNet无疑是最佳选择。但如果需要更多的功能,则可能需要结合使用其他系统或直接使用其他系统。

SpaCy 的特点

SpaCy是一款用于英语自然语言处理的开源库,具有以下特点:

  • 标记依存句法分析:在OntoNotes 5上的准确率达到91.8%
  • 命名实体识别:在OntoNotes 5上的准确率达到82.6%
  • 词性标注:在OntoNotes 5上的准确率达到97.1%
  • 使用词向量:方便进行文本处理
  • 所有字符串映射到整数ID
  • 包含易于使用的拼写特征
  • 无需前期处理:可以直接使用原文本材料

SpaCy以其高效的速度和易用性而著称。

本文来源: 图灵汇 文章作者: 半导体行业观察