自然语言处理的研究领域非常广泛,不同的分类方法都有其合理之处。
我们以“自然语言处理”为关键词,通过对1962年至2017年间相关论文的研究,总结出自然语言处理领域的起源关键词主要集中在以下几个方面:人工智能、计算语言学以及语言学理论等。
通过对中国中文信息学会2016年发布的《中文信息处理发展报告》的研究,我们将自然语言处理的研究领域和技术进行了分类。今天,我们将重点介绍其中的应用技术部分。
自然语言处理的应用技术主要包括机器翻译、信息检索、情感分析和社会媒体处理等。
机器翻译
机器翻译是指通过特定的计算机程序将一种语言的文本或语音翻译成另一种语言的文本或语音。它是一门涉及计算机语言学、人工智能和数理逻辑的交叉学科。
机器翻译可以按方法和媒介进行分类:
方法分类:
媒介分类:
信息检索
信息检索最早是在20世纪50年代提出的,是从相关文档集合中查找用户所需信息的过程。随着互联网的发展,搜索引擎成为了信息检索的一种特殊形式。
信息检索的基本原理是将用户输入的关键词与数据库中的索引词进行对比,匹配成功即检索成功。检索结果会根据与查询词的相关性进行排序,供用户选择。
以谷歌为代表的搜索引擎采用“关键词查询+选择性浏览”的交互方式,提供给用户一系列可能的目标页面列表。
情感分析
情感分析又称意见挖掘,通过计算技术对文本的主观性、观点、情绪和极性进行挖掘和分析,从而对文本的情感倾向做出分类判断。
情感分析在评论机制的App中应用广泛,例如酒店网站和电商平台的商品评价。此外,它在互联网舆情分析中也扮演着重要角色,能够帮助准确把握舆论趋势并加以引导。
情感分析还被应用于选举预测和股票预测等领域,显示出越来越重要的作用。