R语言自然语言处理3:中文语料库构建

飞机圈子

2018-08-19 21:41:24

自然语言处理（NLP）是一门研究计算机如何处理人类语言的技术，其应用领域广泛，包括句法语义分析、信息抽取、文本挖掘、机器翻译、信息检索、问答系统和对话系统等。人们对于NLP的应用寄予厚望。

本文将以徐志摩的诗集为例，展示如何使用R语言构建中文语料库。尽管许多编程语言对中文的支持有限，但R语言能够有效处理中文文本，从而帮助研究中文文学。

语料库是由一组文本构成的数据集，常用于文本数据处理。以下是如何使用R语言创建中文语料库：

最新版本的tm包于2017年7月更新，该包在处理文本数据时非常强大。tm包通过Corpus函数处理文本文档，语料库是文档的集合。

第一次使用该包时，需要通过命令安装： r install.packages("tm")

tm包通过language参数来设置不同的语言种类。tm包采用ISO-639-2标准，中文编码为“zh”。其他语言的编码可以在相关表格中查询。

网上可以下载到许多中文诗集，通常以txt纯文本格式存在。我们将徐志摩的诗集分为6个txt文件的小册子。

将每个txt文件的内容构建成语料库。向量形式是数据处理中快速且高效的方式，因此我们使用向量形式构建语料库，即“term-document matrices”（词项-文档矩阵）。

创建语料分析文档，并将其转换为二进制文本文档。

通常，一个语料库包含大量的文档。使用print()函数可以查看文档的简要信息，而inspect()函数则能提供更多详细信息。例如，我们可以查看第六篇文章《再别康桥》的内容。

由于tm包将文本中的字符以向量形式处理，因此可以使用tm包提供的所有向量操作方法（如提取、转置、特征值等）。更多关于向量操作的信息可以参考本公众号的暑期系列内容。

中文语言博大精深，文学作品丰富多样。借助R语言，研究人员可以通过简单的编程方式快速分析海量的文本文档。

希望以上内容对你有所帮助。如果你有任何问题或建议，欢迎留言交流。

语料库自然语言中文构建语言处理

本文来源：图灵汇文章作者：飞机圈子

人工智能应用不输电视 空调跨入自然语言交互时代