Press "Enter" to skip to content

探索性数据分析:我们对YouTube频道了解多少(第二部分)

使用Pandas和YouTube数据API获取统计洞察

Image by Souvik Banerjee, Unsplash

在这个故事的第一部分中,我从大约3000个YouTube频道中收集了统计数据,并得到了一些有趣的洞察。在本部分中,我将更深入地研究,从“频道”到“视频”的个别水平上。我将展示如何收集关于YouTube视频的数据以及我们可以得到什么样的洞察。

方法论

要收集关于YouTube视频的数据,我们需要执行几个步骤:

  • 获取YouTube数据API的凭据。它是免费的,每天的API限制为10,000个请求,足以完成我们的任务。
  • 找到我们想要分析的几个YouTube频道。
  • 编写一些Python代码,以获取所选频道的最新视频及其统计信息。YouTube分析仅适用于频道所有者,并且我们只能获取当前时刻的数据。但是我们可以运行代码一段时间。在我的案例中,我使用Apache Airflow和Raspberry Pi收集了三周的数据。
  • 进行数据分析。我将使用Pandas、Matplotlib和Seaborn进行分析。

获取YouTube API凭据和配置Apache AirFlow的方法在我的先前文章中有描述,我建议读者先暂停本文,阅读那一部分:

探索性数据分析:我们对YouTube频道了解多少

使用Pandas和YouTube数据API获取统计洞察

towardsdatascience.com

现在,让我们开始吧。

1. 获取数据

为了获取有关YouTube视频的信息,我将使用python-youtube库。令人惊讶的是,没有现成的方法可以从特定频道获取视频列表,我们需要自行实现它。

首先,我们需要调用get_channel_info方法,正如其名称所示,它将返回有关频道的基本信息。

from pyyoutube import Apidef get_channel_info(api: Api, channel_id: str)…
Leave a Reply

Your email address will not be published. Required fields are marked *