在 pandas 中拥有正确的 dtype 对于数据分析非常重要。以下是如何以及为什么。
拥有适当的 dtype 对于您的 Series 和 DataFrame 来说非常重要,原因如下:
- 内存管理:为特定的 Series 使用正确的 dtype 可以大大减少其内存使用量,而且这也适用于 DataFrame
- 解释:任何其他人(人类或计算机)都会根据其 dtype 对数据进行假设:如果以字符串形式存储的整数列,他们会将其视为字符串,而不是整数
- 它强制你拥有干净的数据,例如处理缺失值或错误记录的值。这将极大地简化数据处理的过程
还有很多其他原因,你能提出几个吗?如果可以,请在评论中写下来。
在我 pandas 系列的第一篇文章中,我想回顾一下 pandas 的基本数据类型 —— 或者 dtype。
我们首先将回顾 pandas 提供的可用 dtype,然后我会重点介绍 4 种有用的 dtype,它们将满足你 95% 的需求,即数值型 dtype、布尔型 dtype、字符串型 dtype 和分类型 dtype。
这篇文章的最终目标是让您更熟悉 pandas 中提供的各种数据类型以及它们之间的差异。
如果您对 pandas 和时间序列感兴趣,请务必查看我的用于时间序列的 Fourier 变换文章:
- 了解卷积与 Fourier 变换之间的关系,以及它的快速性:
时间序列的 Fourier 变换:使用 NumPy 解释快速卷积
使用 Fourier 变换的 10000 倍快速卷积
towardsdatascience.com
- 通过图像示例深入理解卷积:
时间序列的 Fourier 变换:关于图像卷积和 SciPy
Fourier 变换的卷积也适用于图像
towardsdatascience.com
- 理解 Fourier 变换如何视觉化…