Press "Enter" to skip to content

在Python中制作相关矩阵的7种方法

不要成为总是用同一个相关矩阵的数据科学家!

坦白说,普通的相关矩阵很无聊。流行的pairplot也是如此。有用,但令人无聊。并不是对香草甜点 🍦 🍨 🍦 🍨 🍦 有意见

Photo by Paul Stollery on Unsplash A snoozing cat!

如果你同意,这篇文章就是为你准备的——它将帮助你提升并丰富你的相关矩阵技巧。

相关矩阵是数据分析的基本工具。它们能够让我们了解不同变量之间的关系。以下是使用不同的库和数据集在Python中创建相关矩阵的十种方法。

1)使用Pandas

也许是最简单的选择。这是一种简单的选择,因为它只需要在任何Pandas DataFrame对象上调用一个简单的方法。由于我们大多数数据科学家都在使用Pandas处理数据,这通常是检查数据相关性的最快、最简单的方法之一。

import pandas as pdimport seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr(numeric_only=True)correlation_matrix
Image Credit: Author’s illustration created with the code shown here.

你可能会问“p值在哪里?”如果你是这样的(当我看到这个输出时,我也会这样问),请阅读本文底部关于如何报告这些p值的建议。

2)使用NumPy

当你只需要一个矩阵而不需要列或行标签时使用。

import seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr()sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')

结果将类似于以下内容。

array([[ 1.    , -0.8051, -0.7784, -0.8322,  0.4233],       [-0.8051,  1.    ,  0.8972,  0.9329, -0.5438],       [-0.7784,  0.8972,  1.    , 0.86453, -0.6891],       [-0.8322,  0.9329, 0.86453,  1.    , -0.4168],       [ 0.4233, -0.5438, -0.6891, -0.4168,  1.    ]])

3)使用Seaborn可视化

Leave a Reply

Your email address will not be published. Required fields are marked *