投稿
APP
微信扫一扫获取更多

在线文本语料库的构建|自然语言处理

南京本地宝

2018-08-19 21:29:14

图灵汇官网

自然语言处理（NLP）被誉为“人工智能的瑰宝”，其目标是使计算机能够理解人类语言，并实现人机智能交互。无论是商业机构、政府单位还是个人，都在处理海量的文本数据，这些数据与日常生活息息相关。其中蕴藏着巨大的信息价值，有待人们进一步发掘。

文本挖掘

通过社交网络获取文本数据是文本挖掘的第一步，主要工作包括从社交网络上抓取文本，并构建一个“文档-词项”矩阵。接下来，通过分析这个矩阵来识别频繁出现的词汇和关联规则。此外，还可以利用词语可视化技术展示文档中的关键词。最终，对文本内容进行分类。

社交网络文本检索

本公众号将通过雅虎的文本数据来介绍文本挖掘的过程。（有关网络数据抓取的内容，请参考本公众号的历史文章。）

这里介绍tm.plugin.webmining插件包，它可以帮助用户便捷地从网络获取文本数据。

载入支持包

首次使用时，需通过以下命令安装必要的软件包： r install.packages("package_name")

tm包是著名的文本挖掘工具，最新版本发布于2018年7月29日（更新后的软件包只需重新安装）。而tm.plugin.webmining插件包则能帮助用户高效地获取网络文本数据。此插件包支持多种数据格式，如XML（RSS、ATOM）、JSON、HTML等。由于不同的网站采用不同的编程语言（如PHP、JavaScript）和架构（如LAMP），因此数据存储格式也有所不同。有些数据是静态的，有些则是实时的，还有些涉及数据库调用，因此数据格式多种多样。

tm.plugin.webmining插件包内置了API接口，可以访问大量数据源，例如Google、雅虎（雅虎财经、雅虎体育、雅虎新闻）、路透社、《纽约时报》等。

这里我们将使用tm.plugin.webmining插件包获取雅虎新闻的数据。

网络文本挖掘可以通过多种方法实现，对于不熟悉tm系列包的用户，也可以借助常用的网络数据抓取工具，如RCurl包等。