《NLP》你真的了解”自然语言处理(NLP)“吗?
2018-08-05 23:54:01
图灵汇官网
前言
上周,清华大学AMiner发布了一份《2018自然语言处理研究报告》。由于时间限制,未能及时更新,希望读者能够理解。现在,我将以初学者的角度整理这份报告的主要内容,希望能对大家有所帮助。
本文概述
本文主要对《2018自然语言处理研究报告》进行了整理,涵盖了五个方面:自然语言处理(NLP)概述、NLP相关技术分类、NLP研究人员分布、NLP的应用、NLP的发展趋势。
一、NLP概述
1. 什么是NLP?
NLP,即自然语言处理,是指计算机对自然语言的各种信息进行处理,包括字、词、句和篇章的输入、输出、识别、分析、理解和生成等操作。简单来说,NLP的目标是让计算机能够理解人类的语言。
2. 如何让计算机理解自然语言?
自然语言的理解和分析是一个多层次的过程。为了更好地体现语言的构成,一些语言学家将其分为语音分析、词法分析、句法分析、语义分析和语用分析。比如,计算机通过麦克风接收语音信号,首先需要区分语音和噪声,然后将语音分割成单词,分析单词的意义,再理解整个句子的意思,最后还要理解说话人的意图。
3. 如何衡量计算机理解自然语言的程度?
评估计算机理解自然语言程度的一个常用方法是图灵测试。具体标准包括:能否正确回答文本中的问题、能否生成文本摘要、能否用不同词语和句型复述文本内容、能否进行翻译等。
4. NLP的发展历程
NLP的发展经历了三个阶段:
- 第一阶段:1950年,图灵提出了“图灵测试”,这是自然语言处理思想的开端。此阶段主要采用基于规则的方法。
- 第二阶段:20世纪70年代以后,互联网的快速发展和丰富的语料库使得基于统计的方法逐渐取代了基于规则的方法。
- 第三阶段:2008年以来,深度学习技术的应用推动了NLP的发展,尤其是在机器翻译、问答系统和阅读理解等领域取得了显著进展。
5. 我国NLP的发展状况
自20世纪90年代以来,中国的NLP研究迅速发展,呈现出商业化和创新化的特征。研究内容涵盖基础性研究(如消除歧义、语法形式化等)、应用型研究(如信息检索、文本分类、机器翻译等)。研究周期相对较短,但语言资源库的建设则需要较长时间。此外,国家自然科学基金和社会科学基金等对NLP研究提供了大力支持。
二、NLP相关技术分类
1. 基础技术
- 词法分析:包括词性标注和词义标注。
- 句法分析:分析句子的结构和成分。
- 语义分析:根据句法结构和词义推导句子的意义。
- 语用分析:理解语言的实际应用。
- 篇章分析:对段落和整篇文章进行理解和分析。
2. NLP应用技术
- 机器翻译:将一种语言翻译成另一种语言。
- 信息检索:从文档集合中找到用户所需信息。
- 情感分析:分析文本的情感倾向。
- 自动问答:通过计算机自动回答用户问题。
- 自动文摘:从源文本中提取重要信息,生成精简版本。
- 社会计算:利用信息技术分析社会关系和挖掘社会知识。
- 信息抽取:从文本中抽取出特定事实信息。
三、NLP研究人员分布
1. 全球学者分布
- 国家:美国是NLP研究学者最多的国家,其次是英国、德国、加拿大和意大利。
- 地区:美国东部是NLP人才的主要集中地,西欧、美国西部等地区也有大量研究者。
2. 华人学者分布
- 华人专家:自然语言处理领域的华人专家主要集中在中国,其次是美国。
- 地区:中国大陆是华人学者的主要聚集地,特别是北京、哈尔滨及东南沿海地区。
四、NLP的应用
1. 知识图谱
- 语义搜索:通过知识图谱改善搜索结果。
- 知识问答:基于知识库回答用户问题。
- 大数据分析决策:辅助决策,如Netflix利用知识图谱决定《纸牌屋》的拍摄。
2. 机器翻译
- 科大讯飞:将最先进的神经网络翻译系统优化为离线系统。
- 阿里巴巴:上线自主开发的神经网络翻译系统。
- 腾讯:上线同声传译功能。
- 搜狗:展示机器同传技术,并上线翻译宝。
3. 聊天机器人
- 概念:通过聊天app或语音唤醒app进行交流的计算机程序。
- 特点:成本低、高效且持续工作。
- 对话机器人:如Siri、小娜等。
- 智能问答系统:如京东客服Jimi。
4. 文本分类
5. 搜索引擎
- 涉及技术:词义消歧、句法分析、指代消解等。
- 功能:帮助用户找到答案,连接人与实体世界的服务。
6. 推荐系统
- 起源:1992年Goldberg提出的个性化邮件推荐系统。
- 技术:数据、算法、人机交互、数据挖掘技术、信息检索技术等。
- 应用:音乐电影推荐、电子商务产品推荐等。
五、NLP的发展趋势
1. 文本理解与推理
2. 对话机器人
3. 结合NLP+行业
4. 学习模式
5. 文本情感分析
- 情感文本分析更受重视,并在商业和政府舆情上有广泛应用。
结束语
以上是对报告的主要内容进行的整理,希望能为大家提供一定的参考价值。如有不当之处,欢迎指正。