使用Polars进行数据流水线：逐步指南

使用Polars构建可伸缩且快速的数据管道

本文的目的是解释和展示如何使用Polars构建数据管道。它汇集并使用了本系列的前两部分中所掌握的所有知识，所以如果您还没有阅读过它们，我强烈建议您从那里开始，然后再回到这里。

towardsdatascience.com

towardsdatascience.com

您可以在此存储库中找到所有的代码，所以不要忘记克隆/拉取并给它加星。特别是，我们将要探索的是这个文件，这意味着我们将终于离开笔记本进入现实世界！

本项目中使用的数据可以从Kaggle（CC0：公共领域）下载。这是在前两部分中使用的相同的YouTube热门视频数据集。我假设您已经安装了Polars，所以只需确保使用pip install -U polars将其更新到最新版本。

简单来说，数据管道是一系列自动化的步骤，从一个或多个位置提取数据，应用处理步骤并将处理后的数据保存在其他地方以供进一步使用。

Polars处理数据的方式非常适合构建可伸缩的数据管道。首先，我们可以轻松地链式调用方法，从而可以优雅地编写一些相当复杂的管道。

例如，假设我们想要找出2018年每个月最多观看次数的热门视频。下面是一个完整的管道，用于计算这个指标并将其保存为parquet文件。