Press "Enter" to skip to content

使用Polars进行数据流水线:逐步指南

使用Polars构建可伸缩且快速的数据管道

Filippo Vicini在Unsplash上的照片

介绍

本文的目的是解释和展示如何使用Polars构建数据管道。它汇集并使用了本系列的前两部分中所掌握的所有知识,所以如果您还没有阅读过它们,我强烈建议您从那里开始,然后再回到这里。

使用Polars进行EDA:Pandas用户的逐步指南(第1部分)

使用Polars提升数据分析能力

towardsdatascience.com

使用Polars进行EDA:聚合和分析函数的逐步指南(第2部分)

使用Polars进行高级聚合和滚动平均速度极快

towardsdatascience.com

设置

您可以在此存储库中找到所有的代码,所以不要忘记克隆/拉取并给它加星。特别是,我们将要探索的是这个文件,这意味着我们将终于离开笔记本进入现实世界!

本项目中使用的数据可以从Kaggle(CC0:公共领域)下载。这是在前两部分中使用的相同的YouTube热门视频数据集。我假设您已经安装了Polars,所以只需确保使用pip install -U polars将其更新到最新版本。

数据管道

简单来说,数据管道是一系列自动化的步骤,从一个或多个位置提取数据,应用处理步骤并将处理后的数据保存在其他地方以供进一步使用。

Polars中的管道

Polars处理数据的方式非常适合构建可伸缩的数据管道。首先,我们可以轻松地链式调用方法,从而可以优雅地编写一些相当复杂的管道。

例如,假设我们想要找出2018年每个月最多观看次数的热门视频。下面是一个完整的管道,用于计算这个指标并将其保存为parquet文件。

Leave a Reply

Your email address will not be published. Required fields are marked *