使用Polars进行EDA：适用于Pandas用户的逐步指南（第1部分）

用 Polars 提升你的数据分析能力

Photo by Mitul Grover on Unsplash — Mitul Grover 在 Unsplash 上的照片

介绍

偶尔会出现一种工具，它极大地改变了数据分析的方式。我相信 Polars 就是其中之一，因此在这一系列文章中，我将深入研究这个库，将其与一个更为知名和成熟的库 —— Pandas 进行比较，并使用一个示例数据集展示分析工作流程。

什么是 Polars？

Polars 是一个用 Rust 编写的极快的 DataFrame 库。对于我们（数据科学家/分析师）来说，它有一个非常完整的 Python 封装，可以提供一整套功能来处理数据和构建数据流水线。这是我在切换到 Polars 后看到的主要优势：

更快的预处理操作
能够处理大于内存的数据集
由于需要正确构建数据流水线，代码质量更高

您可以在这个用户指南中看到所有的好处，并在这个 H20 基准测试中进行速度比较。

从 Pandas 切换

乍一看，Pandas 和 Polars 似乎相似，例如它们之间共享的方法，如 .read_csv() 或 .head()，因此您可以执行基本的探索性操作而不需要进行任何更改。但是，当您开始使用这个库时，您会越来越注意到这两个库有多么不同。从语法到思考方式，切换到 Polars 并不容易。这就是为什么我希望这些文章能帮助你入门。

设置

要跟随这个项目，请确保拉取 GitHub 上的最新笔记本。这个项目中使用的数据可以从 Kaggle 下载（CC0：公共领域）。这是关于YouTube热门视频的数据集，对于这一系列的文章来说，它应该提供足够的复杂性。另外，您需要安装 Pandas 和 Polars，可以使用 pip 安装这两个软件包。

现在一切都设置好了，让我们开始项目吧！这里的主要目标是让您更熟悉 Polars，所以请确保跟随或实践这些概念…