自然语言是指人类日常生活中使用的语言,如汉语、英语、法语等,这些语言是在人类社会的发展过程中逐渐形成的。自然语言是人类学习和生活的关键工具,它承载了人类历史和文化的大部分信息。据统计,80%以上的知识是以文字形式记录和传播的。计算机在处理这些信息时,主要用于语言文字的处理,占比大约为85%,而用于数学计算和过程控制的比例分别只有10%和5%。
自然语言处理是指利用计算机处理自然语言的各种信息,包括对字、词、句、篇章的输入、输出、识别、分析、理解和生成等操作。这项技术旨在实现人机之间的信息交流,是人工智能、计算机科学和语言学领域的重要课题。自然语言处理的应用形式多样,包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成和语音识别等。
自然语言处理主要涉及两个流程:自然语言理解和自然语言生成。前者指的是计算机能够理解自然语言文本的意义,后者则是指计算机可以用自然语言表达给定的意图。自然语言的理解和分析是一个多层次的过程,通常被划分为五个层次:语音分析、词法分析、句法分析、语义分析和语用分析。每个层次都有其特定的功能,共同构成了自然语言处理的基础。
自然语言处理是一门涵盖计算机科学、语言学和心理学等多学科的交叉学科。梳理自然语言处理的发展历程有助于更好地理解这一领域的演变。1950年,图灵提出了著名的“图灵测试”,这被视为自然语言处理思想的起点。从20世纪50年代到70年代,自然语言处理主要依赖基于规则的方法,这种方法模仿人类学习语言的过程,但存在局限性。到了70年代后期,随着互联网的发展和大量语料库的出现,自然语言处理开始转向基于统计的方法,这种方法在语音识别等领域取得了显著成效。
进入21世纪,深度学习技术逐渐成为自然语言处理的重要手段。2008年以来,深度学习在图像识别和语音识别方面的成功激发了人们将其应用于自然语言处理的兴趣。从最初的词向量到2013年的word2vec,深度学习技术极大地推动了自然语言处理的发展。例如,RNN、GRU和LSTM等模型相继出现,使得自然语言处理在机器翻译、问答系统和阅读理解等领域取得了显著进展。
自20世纪90年代以来,中国的自然语言处理研究进入了一个快速发展的时期。许多系统开始大规模商业化,研究内容和应用领域不断创新。当前,自然语言处理的研究可以分为基础性研究和应用性研究。基础性研究主要包括语言学、数学和计算机科学等领域的技术,如消除歧义和语法形式化。应用性研究则集中于信息检索、文本分类和机器翻译等领域。
中国自然语言处理技术的发展离不开国家的支持,包括各种政策扶持和资金资助。国家自然科学基金、社会科学基金、863项目和973项目等提供了大量的资金支持,特别是国家自然科学基金在基础理论研究方面投入较大。此外,企业也在积极资助自然语言处理项目,这些项目大多集中在应用领域,开发周期较短,容易推向市场。
微软亚洲研究院
微软亚洲研究院成立于1998年,研究内容包括多国语言文本分析、机器翻译、跨语言信息检索和自动问答系统等。这些研究项目产生了许多实用成果,如IME、对联游戏、Bing词典、Bing翻译器、语音翻译和搜索引擎等。微软在自然语言处理领域的贡献不仅体现在产品上,还表现在学术成果上,如在ACL、COLING等顶级会议上发表了大量论文。
2017年,微软在其语音翻译技术中全面采用了神经网络机器翻译,并引入了Microsoft Translator Live Feature,可以在演讲和会议期间实时翻译多种语言。微软还计划在未来将知识图谱融入神经网络机器翻译,以提高翻译质量。在人机对话方面,微软的小娜和小冰等产品已经在全球范围内获得了广泛应用。
谷歌
谷歌是最早研究自然语言处理技术的公司之一,凭借海量数据和先进的算法,谷歌在搜索、移动、应用、广告和翻译等领域取得了显著成就。谷歌的机器翻译技术一直处于领先地位,特别是在2016年发布的GNMT系统中,采用了最新的训练技术,实现了机器翻译质量的最大提升。2017年,谷歌宣布其机器翻译系统完全基于注意力机制的Transformer架构,达到了新的水平。
谷歌的知识图谱技术同样处于行业前沿,其自动挖掘新知识的准确性、文本中命名实体的识别和纯文本搜索词条到知识图谱上的结构化搜索词条的转换等方面都领先于其他公司。此外,谷歌在语音识别方面也取得了显著进展,通过引入神经网络,大幅降低了语音识别的错误率。
脸书
脸书涉足自然语言处理相对较晚,但其在翻译和语音识别方面取得了显著进展。2013年,脸书收购了语音对语音翻译研发公司Mobile Technologies,组建了语言技术组。该团队很快开发了翻译工具,并在2015年实现了完全自主开发。脸书的语言技术小组不断改进自然语言处理技术,以提升用户体验,尤其是在机器翻译、语音识别和会话理解方面。
2016年,脸书首次将29层深度卷积神经网络用于自然语言处理,并在2017年使用全新的卷积神经网络进行翻译,实现了比循环神经网络更高的准确率。脸书还开发了语音识别系统,并推出了端到端自动语音识别系统wav2letter,以及基于FastText的文本处理方法。
百度
百度自然语言处理部是百度最早成立的部门之一,研究领域包括深度问答、阅读理解、智能写作、对话系统、机器翻译、语义计算、语言分析、知识挖掘、个性化和反馈学习等。百度在深度问答方面积累了丰富的技术方案,并已在搜索和度秘等产品中应用。篇章理解技术也已应用于搜索、资讯流和糯米等产品中。百度翻译目前支持28种语言,覆盖756个翻译方向,并提供精准的人工翻译服务。
百度自然语言处理部的重要人物包括王海峰和吴华。王海峰是百度现任副总裁,负责多个重要业务,包括搜索引擎、手机百度、百度信息流、百度新闻、百度手机浏览器、百度翻译和自然语言处理等。吴华是百度自然语言处理部的技术负责人,她在自然语言处理和机器翻译方面取得了重大突破,并主持研发了多项核心技术。
阿里巴巴
阿里巴巴自然语言处理技术主要用于电商平台中的智能导购和全网用户兴趣挖掘。阿里巴巴在客服场景中也应用了自然语言处理技术,如蚂蚁金融智能小宝和淘宝卖家的辅助工具千牛插件等。阿里巴巴的机器翻译技术主要与国际化电商规划相关,可以进行商品信息翻译、广告关键词翻译和买家采购需求翻译等。2017年初,阿里巴巴正式上线了自主开发的神经网络翻译系统,进一步提升了翻译质量。
腾讯
腾讯的人工智能实验室AI Lab研究领域包括计算机视觉、语音识别、自然语言处理和机器学习等。腾讯文智自然语言处理系统基于并行计算和分布式爬虫系统,结合独特的语义分析技术,可以满足自然语言处理、转码、抽取和数据抓取等需求。在机器翻译方面,2017年腾讯推出了“同声传译”功能,用户可以边说边翻,语音识别和NMT技术的应用保证了速度和准确性。
京东
京东在人工智能领域不甘落后,其AI开放平台由模型定制化平台和在线服务模块构成,包括计算机视觉、语音交互、自然语言处理和机器学习等。京东AI开放平台计划通过建立算法技术、应用场景和数据链间的连接,构建京东AI发展的全价值链,实现AI能力平台化。NeuHub平台作为普惠性开放平台,可以支撑科研人员和算法工程师不断设计新的AI能力,以满足用户需求,并深耕电商、供应链、物流、金融、广告等多个领域应用。
科大讯飞
科大讯飞成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究、软件及芯片产品开发、语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞在语音合成、语音识别、口语评测和自然语言处理等领域拥有国际领先的成果。科大讯飞在2014年国际口语翻译大赛IWSLT上获得中英和英中两个翻译方向的全球第一名,并在2015年美国国家标准技术研究院组织的机器翻译大赛中取得全球第一的成绩。2017年,科大讯飞推出了多款硬件翻译产品,其中晓译翻译机1.0plus将神经网络翻译系统由在线系统转化为离线系统,实现在没有网络的情况下提供基本的翻译服务。