不要成为总是用同一个相关矩阵的数据科学家!
坦白说,普通的相关矩阵很无聊。流行的pairplot也是如此。有用,但令人无聊。并不是对香草甜点 🍦 🍨 🍦 🍨 🍦 有意见
如果你同意,这篇文章就是为你准备的——它将帮助你提升并丰富你的相关矩阵技巧。
相关矩阵是数据分析的基本工具。它们能够让我们了解不同变量之间的关系。以下是使用不同的库和数据集在Python中创建相关矩阵的十种方法。
1)使用Pandas
也许是最简单的选择。这是一种简单的选择,因为它只需要在任何Pandas DataFrame对象上调用一个简单的方法。由于我们大多数数据科学家都在使用Pandas处理数据,这通常是检查数据相关性的最快、最简单的方法之一。
import pandas as pdimport seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr(numeric_only=True)correlation_matrix
你可能会问“p值在哪里?”如果你是这样的(当我看到这个输出时,我也会这样问),请阅读本文底部关于如何报告这些p值的建议。
2)使用NumPy
当你只需要一个矩阵而不需要列或行标签时使用。
import seaborn as snsdata = sns.load_dataset('mpg')correlation_matrix = data.corr()sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm')
结果将类似于以下内容。
array([[ 1. , -0.8051, -0.7784, -0.8322, 0.4233], [-0.8051, 1. , 0.8972, 0.9329, -0.5438], [-0.7784, 0.8972, 1. , 0.86453, -0.6891], [-0.8322, 0.9329, 0.86453, 1. , -0.4168], [ 0.4233, -0.5438, -0.6891, -0.4168, 1. ]])