自然语言课程(五):使用gephi绘制人物关系图及案例分析 ...

图灵汇官网

引言

在之前的课程中,我们探讨了自然语言处理领域中常用的一些分析方法,这些方法主要用于分析信息传播的内容。然而,信息传播的方式同样蕴含着重要的信息。例如,研究一条热门微博时,可以通过追踪其传播路径,找出关键的转发者,并进一步分析他们的微博内容,从而更有效地提取关键信息。本节课我们将介绍如何利用可视化方法探索信息的传递,考虑到绘图的便捷性和美观性,我们将采用Gephi作为可视化工具。

Gephi简介

Gephi是一款在网络分析领域具有强大功能的数据可视化软件。开发者的愿景是将其打造为“数据可视化领域的Photoshop”。不同于前几节课所涉及的各种自然语言处理算法,Gephi是一个具有图形用户界面的可视化工具。因此,本节课的重点在于学习Gephi的基本操作。除了绘图,Gephi还支持基于图论的模型,更高级的功能可以在官方网站的教程中找到。

操作介绍

本节课我们将使用《红楼梦》的部分章节作为案例,统计其中主要人物的出场关系并绘制网络图,以便于实例分享。读者可以在微信后台回复“第五课”获取所需的下载链接。

数据导入

首先,可以从Gephi官网上免费下载这款开源软件。接下来,我们重点学习如何导入数据。在Gephi中,输入的数据可以分为点信息和边信息两部分。点表示个体,边表示个体之间的关系,每条边和点还可以附加标签、权重等额外信息,用以描述个体的类别和关系的强度。

我们继续使用《红楼梦》的部分章节作为案例,统计其中主要人物的出场关系并绘制网络图。人物关系统计代码如下:

通过上述步骤,我们得到了两个CSV文件:nodes.csvedges.csv。其中,edges.csv 包含了线与权重信息,nodes.csv 则包含了个体信息。特别需要注意的是,edges.csv 文件中的列名必须设置为 Source(起始点)、Target(终点)和 Weight(权重),否则Gephi无法自动识别。

随后,打开Gephi,点击文件并导入电子表格,就可以直接将生成的两个结果文件导入了。友情提示:在导入的最后一部选择“Append to existing workspace”,否则会新开很多工作区。

导入后,您可能会看到一团混乱的图形。接下来,需要调整节点和边的颜色及大小,使其更加美观。调整选项如图所示,您可以自行调整。

调整好节点后,同样可以调整边的视觉属性,然后需要对节点的位置进行调整。常用的布局算法包括Fruchterman Reingold,您可以根据实际情况进行尝试。

如果您仍然觉得图形不够美观,可以点击界面左上角的预览按钮,查看最终效果。

到此为止,我们已经完成了基本操作,可以看到经过一系列操作后,我们的网状图已初具规模,通过节点的大小和形状直观地反映了数据之间的关系。

Gephi 的功能扩展

Gephi不仅能够绘制图表,还可以通过内置的数学统计算法来生成更具分析价值的结果。感兴趣的读者可以访问官网了解更多详细信息。

结语

本次课程就到这里,下一期课程将对比介绍Python爬虫工具及其爬取文本信息的方法。期待下次课程再见!


以上是改写后的内容,确保了与原文的事实和核心信息一致,同时在语言风格和表达方式上进行了调整,降低了相似度。

本文来源: 图灵汇 文章作者: 第三只眼看零售mp