Press "Enter" to skip to content

如何自动提取和标记Seaborn KDE图上的数据点

DALL·E 2023—一幅波动的山脉印象派绘画,山脊上有明亮的彩色圆圈(所有剩余的图像作者提供)

核密度估计图是一种用于可视化数据点分布的方法,类似于直方图。直方图将观测值分箱并计数,而核密度估计图使用高斯核对观测值进行平滑。与直方图相比,核密度估计图更具吸引力,在同一图中更容易比较,并且更能突出数据分布中的模式。

直方图与核密度估计图

在核密度估计图上注释统计量,如均值、中位数或众数,可以使其更有意义。虽然添加这些统计量的线条很容易,但使其看起来干净整洁并不容易。

使用简单方法添加的标记线(左)与使用较难但更吸引人的方法添加的标记线(右)

在这个快速成功的数据科学项目中,我们将使用美国人口普查和国会数据集以编程方式注释多个核密度估计图的中位数值。这种方法将确保图形注释自动调整为数据集的更新。

有关核密度估计图的更多详细信息,请参阅我之前的文章。

数据集

由于美国有候选资格法律,国会成员的生日是公开记录的。为了方便起见,我已经编译了一个包含当前国会成员姓名、生日、政府机构和政党的CSV文件,并将其存储在这个Gist中。

对于美国人口,我们将使用2023年7月美国人口普查局的月度后人口表。与之前的数据集一样,这是公开信息,我已将其保存为这个Gist中的CSV文件。

安装库

对于这个项目,我们需要安装seaborn进行绘图和pandas进行数据分析。您可以按照以下方式安装这些库:

使用conda:conda install pandas seaborn

使用pip:pip install pandas seaborn

代码

Leave a Reply

Your email address will not be published. Required fields are marked *