如何在Pandas中习惯性地进行数据分组
动机
“这是什么鬼东西?”
这是初学者在看到某些复杂的pandas
函数的输出时经常会遇到的反应。我总是对很多教程和课程如何在一句话中介绍这样的函数并转而介绍其他主题感到疑惑。即使你从头到尾阅读它们的文档,也会花费超过一分钟。
作为一个初学者,在这种情况下我总是感到非常沮丧。有一次,在Udacity上学习Matplotlib的热力图时,我遇到了这样的情况。正如你所知,Matplotlib无法像Seaborn那样自动创建热力图的注释,所以你必须手动创建。为了做到这一点,你可以使用qcut
或cut
(这是本文的主题)将数据分组成类别,而我对这些函数完全不熟悉。
讲师只是简单地“解释”了这些函数并在屏幕上显示了文档的链接🤦♂️。他甚至快进过他输入语法的部分。
最近,我一直在写一系列关于pandas
中最困难的函数的文章,希望其他人不会遇到同样的困难。这是第四篇,主要介绍如何使用qcut
和cut
对数值数据进行分组。
设置
对于样本数据,我将使用seaborn
的内置planets
数据集:
>>> planets.describe()