自然语言处理的知识体系非常庞大,网上的资料往往零散且不成体系,学习时常常感到困惑。因此,我总结了一份自然语言处理的知识框架,内容主要参考了黄志洪老师的课程及宗成庆老师编著的《统计自然语言处理》这本书。尽管书中内容可能不够详尽,但它是目前较为全面的中文参考书籍。若希望查看优秀的英文资料,可以在我的GitHub上下载相关内容。
接下来直接进入正文:
自然语言处理是利用计算机技术对书面或口语进行各种处理和加工的技术。它是一门研究人与人之间以及人与计算机之间交流的学科,属于人工智能的重要组成部分。
自然语言处理涉及构建计算机(算法)框架来实现语言模型,并完善、测试这些模型,最终应用于各种实际系统。
主要研究问题:
研究方法:自然语言场景问题、数学算法、算法的实际应用、语料训练及相关实际应用。
形式语言是一种按照特定规则构成的句子或字符串的集合,分为有限集合和无限集合。
描述语言的三种方法:
形式语言理论研究的是内部结构模式的纯粹语法领域,常用于理解自然语言的句法规律,是计算机科学中定义编程和语法结构的基础。
形式语言与自动机的基础知识:
自动机的应用实例:
形式语言的局限性:
语言模型:通过语料计算某句话出现的概率(概率表示)。常用的模型有2-元模型和3-元模型。
应用实例:语音识别中的歧义消除。例如,给定拼音串“tashiyanyanjiusaunfade”,可能的汉字串为“踏实烟酒算法的他是研究酸法的他是研究算法的”。显然,最后一句才是正确的。
启示:开启自然语言处理的统计方法。统计方法的一般步骤包括:
语言模型性能评估:包括评价目标、难点及常用指标(如交叉熵、困惑度)。
数据平滑:数据平滑的概念、方法及其必要性,常见的平滑方法包括加一法、加法平滑法、古德-图灵法、J-M法和Katz平滑法。
语言模型的局限性:
概率图模型概述(参考《概率图模型》)。
马尔科夫过程:定义及理解。
隐马尔科夫过程:定义及理解。
HMM的三个基本问题(定义、解法及应用):
HMM的三个基本问题的参数估计与计算。
熵的概念及其重要性。
EM算法的应用:理解其广泛应用。
HMM的应用实例。
层次化马尔科夫模型与马尔科夫网络:提出原因、存在的问题。
最大熵马尔科夫模型:
条件随机场及其应用(概念、模型过程、与HMM的关系):
CRF++简介
命名实体识别问题:相关概率、定义、任务类型及方法。
处理未登录词的方法:基于搜索引擎和语料库。
CRF解决命名实体识别(NER)流程总结:
词性标注及其一致性检查方法:位置属性向量、词性标注序列向量、聚类或分类算法
句法分析的意义及方法:
句法分析方法:
文本分类与文本排重:
文本表示、特征选取与权重计算、词向量:
分类器设计:SVM、贝叶斯、决策树等。
分类器性能评测:召回率、正确率、F1值。
主题模型(LDA)与PLSA。
情感分析:借助计算机帮助用户快速获取、整理和分析相关评论信息,对带有感情色彩的文本进行分析处理。
应用案例
信息检索的发展历程:
常见模型:布尔模型、向量空间模型、概率模型。
常用技术:倒排索引、隐语义分析(LDA等)。
评测指标
统计机器翻译的思路、过程、难点及解决方案。
问答系统的基本组成:问题分析、信息检索、答案抽取。
自动文摘的意义及常用方法。
信息抽取模型(LDA等)。
单词表示,如词向量的训练。
自动写文本:如新闻写作。
机器翻译。
基于CNN、RNN的文本分类。
深度学习与CRF结合用于词性标注。