在自然语言理解的研究中,处理语言歧义一直是一个难题。SyntaxNet 结合了神经网络和搜索技术,显著提升了对歧义问题的处理能力。这款工具能够像训练有素的语言学家一样分析简单的句法结构。今天,谷歌宣布开源了SyntaxNet,并发布了专门针对英语的预训练解析程序Parsey McParseface。
尽管当前的虚拟助手如Siri可以完成一些简单的任务,例如设置闹钟,但它们在处理复杂的语言表达时显得力不从心。科技巨头、创业公司和学术机构都在努力让计算机更好地理解自然语言,而深度神经网络的进步为此提供了重要支持。谷歌、脸书和微软等公司已开始利用深度神经网络来识别图片中的物体,并提高对用户语音命令的理解能力。
谷歌自然语言理解和机器学习领域的负责人Fernando Pereira表示,大多数用户通过语言与公司进行交互,无论是输入文字还是口头交流。因此,理解用户的意图对于提供优质服务至关重要。谷歌开源的SyntaxNet及其英语版本的Parsey McParseface,为我们展示了自然语言理解技术的快速发展前景。
SyntaxNet是一款基于深度神经网络的句法分析工具,它能够深入分析句子,识别每个词汇的角色,并理解单词如何组合成有意义的句子。这款系统经过大量精心标记的数据训练,能够准确解析句子中的语法结构。与Facebook采用的方法不同,后者主要依赖大量的未标记数据,而谷歌则围绕人类专家进行开发。
SyntaxNet采用了谷歌的深度学习框架TensorFlow,是迄今为止使用TensorFlow开发的最复杂和最先进的组件之一。此外,谷歌还提供了一个预训练的英语解析程序Parsey McParseface,它能自动将文本分解成句法成分,从而帮助计算机更好地理解模糊的请求或命令。
根据谷歌的研究,Parsey McParseface在处理英文新闻专线的句子时,准确率达到94%,这一成绩超过了谷歌之前的最佳表现,也优于其他研究方法。虽然尚未有具体的人类表现数据,但据内部估计,受过专业训练的语言学家能达到96%-97%的准确率。这意味着SyntaxNet正在逐步接近人类的理解水平,尤其是在处理编辑良好的文本时。
当被问及SyntaxNet与SpaCy和CoreNLP的对比时,谷歌产品经理Dave Orr表示,这取决于具体的需求。SyntaxNet(特别是其英语模型Parsey McParseface)在依存分析方面表现出色。SpaCy和斯坦福的CoreNLP则涵盖了更多的功能,如命名实体识别和情感分析。
如果只需要一个高效的分析器,SyntaxNet无疑是最佳选择。但如果需要更多的功能,则可能需要结合使用其他系统或直接使用其他系统。
SpaCy是一款用于英语自然语言处理的开源库,具有以下特点:
SpaCy以其高效的速度和易用性而著称。