用 Polars 提升你的数据分析能力
介绍
偶尔会出现一种工具,它极大地改变了数据分析的方式。我相信 Polars 就是其中之一,因此在这一系列文章中,我将深入研究这个库,将其与一个更为知名和成熟的库 —— Pandas 进行比较,并使用一个示例数据集展示分析工作流程。
什么是 Polars?
Polars 是一个用 Rust 编写的极快的 DataFrame 库。对于我们(数据科学家/分析师)来说,它有一个非常完整的 Python 封装,可以提供一整套功能来处理数据和构建数据流水线。这是我在切换到 Polars 后看到的主要优势:
- 更快的预处理操作
- 能够处理大于内存的数据集
- 由于需要正确构建数据流水线,代码质量更高
您可以在这个用户指南中看到所有的好处,并在这个 H20 基准测试中进行速度比较。
从 Pandas 切换
乍一看,Pandas 和 Polars 似乎相似,例如它们之间共享的方法,如 .read_csv()
或 .head()
,因此您可以执行基本的探索性操作而不需要进行任何更改。但是,当您开始使用这个库时,您会越来越注意到这两个库有多么不同。从语法到思考方式,切换到 Polars 并不容易。这就是为什么我希望这些文章能帮助你入门。
设置
要跟随这个项目,请确保拉取 GitHub 上的最新笔记本。这个项目中使用的数据可以从 Kaggle 下载(CC0:公共领域)。这是关于YouTube热门视频的数据集,对于这一系列的文章来说,它应该提供足够的复杂性。另外,您需要安装 Pandas 和 Polars,可以使用 pip 安装这两个软件包。
现在一切都设置好了,让我们开始项目吧!这里的主要目标是让您更熟悉 Polars,所以请确保跟随或实践这些概念…