自然语言处理-第九期-什么是Topic

投稿
APP
微信扫一扫获取更多

自然语言处理-第九期-什么是Topic

乃佳萱

2018-08-05 23:01:20

图灵汇官网

背景

上一期讨论了情感分析的应用场景，其中一个重要环节是提取文本中的特征。我发现大多数特征提取方法（非监督）都是基于主题模型（Topic Model）。因此，本期将介绍我对主题模型的理解。

什么是主题？

要理解主题模型，首先要弄清楚“主题”这个概念的重要性。例如，在句子“小米手机电池一般”中，“电池”可能是我们要提取的主题。这是因为人类在阅读文本时，很容易识别出关键要素。然而，为什么“小米”或“手机”不能被视为主题呢？实际上，即使是人类，也会对某些词语的归类感到模糊。对于计算机而言，每个词都可以看作一个向量，因此判断主题变得更加复杂。特别是在处理大量文本数据时，如何有效地找出主题？

文本写作过程中的主题

假设我们要写一篇关于“健身”的文章。通常，我们会围绕几个主要主题展开：1. 健身的必要性；2. 器材的使用方法；3. 健身与饮食。每个主题都会有相应的论点和论据，即每个主题都会包含许多特定的词汇。

完成文章后，可以从三个层面来审视：文档层面、主题层面和词汇层面。文档层面，这里只有一篇文章；主题层面，我们设定了三个主题；词汇层面，在讨论每个主题时，我们会用到不同的词汇。回顾文章时，我们可能会发现以下几点：

主题可能并不会直接出现在文章中。例如，在论述健身的必要性时，可能会通过优点和缺点的举例来论证，而“必要性”这个词可能根本不会出现。
每篇文章都有自己的侧重点。例如，该篇“健身”文章的50%可能集中在必要性上，30%在器材上，20%在饮食上。
不同的主题会使用一些独特的词汇。例如，在讨论器材时，可能会出现“跑步机”、“龙门架”、“椭圆机”等词汇；而在讨论饮食时，则会出现“蛋白粉”、“鸡胸肉”、“饮食控制”等词汇。

这些过程大家应该都很熟悉。现在，让我们反过来思考一下，当我们直接看到一篇完整的“健身”文章时，如何判断其主题？是否存在一定的规律？

主题模型的概念

通过上述例子，大家可能已经触及了一些要点。回到问题本身：什么是主题？我认为，对于计算机来说，主题是一种模式（Pattern），而主题模型就是通过某种算法来寻找这种模式。文章中的词汇并不是随机分布的，而是有一定的规律。例如，三个主题中都可能出现“健身”这个词，但“蛋白粉”、“鸡胸肉”、“饮食控制”这些词的分布则有明显的规律。主题模型就是通过不同的算法来寻找这些规律。

进一步来说，如果计算机的主题模型最终给出的是三个列表：【鸡胸肉，蛋白粉，饮食控制】、【跑步机，椭圆机，龙门架】、【减肥，体重下降，精神状态】，我们就可以大致推断出每个词背后的主题。因此，可以将主题模型视为一个聚类（Cluster）问题，我们需要做的是抓取那些具有明显特征的词汇。这只是其中一种思路，值得大家从概念上进行思考。

总结

对于一篇文档来说，主题是一个抽象的概念。我们的任务就是找到这种抽象的概念。主题实际上代表了文本背后的模式。计算机可以通过不同的算法来挖掘这些模式。不同的算法只是采用了不同的方式来寻找和呈现这些模式。

下期预告

本期花了大量时间解释什么是主题，一方面是因为这一概念确实很重要，另一方面是我经过长时间的思考才逐渐理清头绪。最近也接触了一些算法，如LSA、LDA、LDA2vec等，它们背后的数学原理相当复杂。接下来，我将直接讲解这些算法的思想及其应用场景，希望能为大家带来更多的启发。如果有任何问题，欢迎留言讨论。