Press "Enter" to skip to content

熊猫:努力改善你的dtypes!

在 pandas 中拥有正确的 dtype 对于数据分析非常重要。以下是如何以及为什么。

拥有适当的 dtype 对于您的 Series 和 DataFrame 来说非常重要,原因如下:

  • 内存管理:为特定的 Series 使用正确的 dtype 可以大大减少其内存使用量,而且这也适用于 DataFrame
  • 解释:任何其他人(人类或计算机)都会根据其 dtype 对数据进行假设:如果以字符串形式存储的整数列,他们会将其视为字符串,而不是整数
  • 它强制你拥有干净的数据,例如处理缺失值或错误记录的值。这将极大地简化数据处理的过程

还有很多其他原因,你能提出几个吗?如果可以,请在评论中写下来。

在我 pandas 系列的第一篇文章中,我想回顾一下 pandas 的基本数据类型 —— 或者 dtype。

Chris Curry 的照片(来自 Unsplash)

我们首先将回顾 pandas 提供的可用 dtype,然后我会重点介绍 4 种有用的 dtype,它们将满足你 95% 的需求,即数值型 dtype、布尔型 dtype、字符串型 dtype 和分类型 dtype

这篇文章的最终目标是让您更熟悉 pandas 中提供的各种数据类型以及它们之间的差异。

如果您对 pandas 和时间序列感兴趣,请务必查看我的用于时间序列的 Fourier 变换文章:

  • 了解卷积与 Fourier 变换之间的关系,以及它的快速性:

时间序列的 Fourier 变换:使用 NumPy 解释快速卷积

使用 Fourier 变换的 10000 倍快速卷积

towardsdatascience.com

  • 通过图像示例深入理解卷积:

时间序列的 Fourier 变换:关于图像卷积和 SciPy

Fourier 变换的卷积也适用于图像

towardsdatascience.com

  • 理解 Fourier 变换如何视觉化
Leave a Reply

Your email address will not be published. Required fields are marked *