Press "Enter" to skip to content

使用Polars进行EDA:适用于Pandas用户的逐步指南(第1部分)

用 Polars 提升你的数据分析能力

Photo by Mitul Grover on Unsplash

介绍

偶尔会出现一种工具,它极大地改变了数据分析的方式。我相信 Polars 就是其中之一,因此在这一系列文章中,我将深入研究这个库,将其与一个更为知名和成熟的库 —— Pandas 进行比较,并使用一个示例数据集展示分析工作流程。

什么是 Polars?

Polars 是一个用 Rust 编写的极快的 DataFrame 库。对于我们(数据科学家/分析师)来说,它有一个非常完整的 Python 封装,可以提供一整套功能来处理数据和构建数据流水线。这是我在切换到 Polars 后看到的主要优势:

  • 更快的预处理操作
  • 能够处理大于内存的数据集
  • 由于需要正确构建数据流水线,代码质量更高

您可以在这个用户指南中看到所有的好处,并在这个 H20 基准测试中进行速度比较。

从 Pandas 切换

乍一看,Pandas 和 Polars 似乎相似,例如它们之间共享的方法,如 .read_csv().head(),因此您可以执行基本的探索性操作而不需要进行任何更改。但是,当您开始使用这个库时,您会越来越注意到这两个库有多么不同。从语法到思考方式,切换到 Polars 并不容易。这就是为什么我希望这些文章能帮助你入门。

设置

要跟随这个项目,请确保拉取 GitHub 上的最新笔记本。这个项目中使用的数据可以从 Kaggle 下载(CC0:公共领域)。这是关于YouTube热门视频的数据集,对于这一系列的文章来说,它应该提供足够的复杂性。另外,您需要安装 Pandas 和 Polars,可以使用 pip 安装这两个软件包。

现在一切都设置好了,让我们开始项目吧!这里的主要目标是让您更熟悉 Polars,所以请确保跟随或实践这些概念…

Leave a Reply

Your email address will not be published. Required fields are marked *