动画词云将传统的词云变成了一种动态可视化。在Python中了解更多关于数据故事的讲述。
简介
动画词云以视频文件中的图像序列的方式显示n元组(连续的文本样本项序列)的绝对频率。它将更多频繁出现在源文本中的词语赋予更大的重要性。越大、越醒目的n元组显示表示其在文本中出现的频率越高。这一方法在经典词云的直观逻辑基础上添加了时间的维度来进行可视化。
如今,很多文本数据集都是针对多个时间段的文本观测数据,因此在可视化数据的变化时面临特定的挑战。与制作多个不同时间段的汇总表或图形不同,我们可以准备一个MP4视频,以通过讲述故事、吸引观众并给出“哇”的效果的方式展示数据。
本文将描述如何使用Python从文本数据生成动画词云。下面是AnimatedWordCloud库的一些独特功能:
- 提供了所有拉丁字母语言的n元组频率可视化
- 清理包含在NLTK停用词列表中的标点符号、数字和停用词的文本数据集
- 生成年度或月度的n元组频率
如何使用它
要使用这个库,请按照以下步骤进行:
1. 安装
为项目创建一个虚拟环境,以避免任何依赖冲突。AnimatedWordCloud依赖于Python 3.8版本,这是因为它需要满足其要求的可视化部分。可使用以下pip命令进行安装:
pip install AnimatedWordCloud