自然语言处理是一门融合了计算机科学、语言学以及心理认知学的交叉学科,各学科之间虽然性质不同,但互相影响。
1950年,图灵提出了著名的“图灵测试”,这一理论通常被视为自然语言处理思想的起点。
在20世纪50年代至70年代,自然语言处理主要采用基于规则的方法。然而,随着互联网的迅速发展,自然语言处理的思路逐渐从理性主义转向经验主义,基于统计的方法逐渐取代了基于规则的方法。
从2008年至今,图像识别和语音识别领域的进展激励了研究人员开始利用深度学习来研究自然语言处理。从最初的词向量到2013年发布的word2vec,深度学习与自然语言处理的结合达到了一个新的高峰,并在机器翻译、问答系统、阅读理解等领域取得了显著的成功。
接下来,我们将介绍自然语言处理在业界的发展情况,包括以下几家公司的贡献:
微软亚洲研究院
微软亚洲研究院于1998年成立了自然语言计算组,研究范围涵盖多国语言文本分析、机器翻译、跨语言信息检索和自动问答系统等。
这些研究项目带来了许多实际应用成果,如输入法编辑器(IME,一种专门的应用程序,用于输入东亚地区的文字)、对联游戏、Bing词典、Bing翻译器、语音翻译和搜索引擎等,为微软的产品做出了重要贡献。此外,微软亚洲研究院还在自然语言处理顶级会议上发表了大量论文。
语音翻译
2017年,微软全面采用神经网络机器翻译,并扩展了Microsoft Translator Live Feature。这项技术允许在演讲和会议期间实时将讲话者的语言翻译成多种语言。关键的技术包括源语言的编码和语言知识的引入,未来微软还计划将知识图谱纳入神经网络机器翻译中。
人机对话
小娜现在拥有超过1.4亿用户,在数十亿设备上与人们交流,并支持十几种语言。另一个聊天机器人小冰也在尝试融合各国语言的知识,实现自由对话,目前支持中文、日文和英文,用户数量达到数亿。
谷歌
谷歌是最早研究自然语言处理技术的公司之一,作为一家以搜索为核心的企业,谷歌非常重视自然语言处理。谷歌拥有海量数据,能够构建庞大的数据库,为其研究提供强有力的数据支持。谷歌在自然语言处理方面的研究重点在于大规模应用、跨语言和跨领域的算法。
机器翻译
谷歌的知识图谱处于领先地位,例如自动挖掘新知识的准确性、文本中命名实体的识别以及纯文本搜索词条到知识图谱结构化搜索词条的转换等,效果均优于其他公司,并且许多技术已经实现产品化。
语音识别
谷歌一直致力于语音搜索技术的发展,自2012年起开始应用神经网络,极大地降低了语音识别错误率。2011年收购了SayNow,将语音通信、点对点对话、群组通话和社交应用结合起来。2014年,谷歌收购了SR Tech Group的多项语音识别相关专利。
Facebook较晚涉足自然语言处理,2013年开始发展语音翻译,2015年开始语音识别的研发。
语音翻译
Facebook的发展历程如下图所示。
语音识别
2015年,Facebook建立了语音识别和对话理解工具,开启了语音识别的研发。2016年,Facebook开发了一个响应“Hey Oculus”的语音识别系统。2018年初,Facebook推出了wav2letter,这是一个高效且端到端的自动语音识别(ASR)系统。
百度
百度自然语言处理部是百度最早成立的部门之一,研究涵盖多个方面。百度在深度问答方向上积累了丰富的经验,包括问句理解、答案抽取、观点分析与聚合等技术,并已应用于搜索和度秘等产品中。百度翻译目前支持28种语言,覆盖756个翻译方向,提供文本、语音、图像等多种翻译功能,并提供精准的人工翻译服务,发布的世界首个线上神经网络翻译系统获得了2015年度国家科技进步奖。
阿里巴巴
阿里巴巴自然语言处理技术应用于电商平台,构建了知识图谱实现智能导购,并进行全网用户兴趣挖掘,在客服场景中也应用了自然语言处理技术。例如,蚂蚁金融智能小宝和淘宝卖家的辅助工具千牛插件等。阿里巴巴的机器翻译与其国际化电商规划密切相关,2017年初上线了自主研发的神经网络翻译系统,提高了翻译质量。
腾讯
腾讯的人工智能实验室AI Lab研究领域包括计算机视觉、语音识别、自然语言处理和机器学习等。腾讯文智自然语言处理基于并行计算和分布式爬虫系统,结合独特的语义分析技术,满足自然语言处理、转码、抽取、数据抓取等需求。在机器翻译方面,2017年腾讯推出翻译君,提供了同声传译功能,语音识别和神经网络翻译技术的应用保证了边说边翻的速度和精准性。
京东
京东在人工智能领域不甘落后,其AI开放平台主要包括模型定制化平台和在线服务模块,其中包括计算机视觉、语音交互、自然语言处理和机器学习等。京东的NeuHub平台将作为普惠性开放平台,不同角色均可找到适合自己的应用场景,例如使用简单的代码即可实现对图像质量的分析评估。京东平台还支撑科研人员和算法工程师设计新的AI能力,服务于电商、供应链、物流、金融、广告等多个领域,并探索医疗、扶贫、政务、养老、教育、文化、体育等多领域应用。
科大讯飞
科大讯飞成立于1999年,专注于智能语音及语言技术、人工智能技术的研究、软件及芯片产品的开发、语音信息服务及电子政务系统的集成,是中国智能语音与人工智能产业的领导者。科大讯飞在语音合成、语音识别、口语评测、自然语言处理等多个技术领域拥有国际领先的成果。科大讯飞自成立以来就在语言和翻译领域开展了一系列项目,基于深度神经网络算法上的创新和突破,取得了显著成果。
希望以上内容能帮助您更好地了解自然语言处理领域的最新进展和各大公司在该领域的贡献。