Press "Enter" to skip to content

维度魔咒,揭秘解密

理解维度魔咒背后的数学直觉

图片来源:https://pixabay.com/illustrations/ancient-art-background-cosmos-dark-764930/

维度魔咒是指在分析高维数据时出现的问题。数据集的维度是指该数据集中线性独立特征的数量,因此,高维数据集是具有大量特征的数据集。这个术语最早由贝尔曼在1961年提出,当他观察到用于估计具有一定准确性的任意函数所需的样本数量随函数的参数数量呈指数增长时。

在本文中,我们详细讨论了分析高维数据时出现的数学问题。尽管这些问题可能看起来不符合直觉,但可以通过直观的方式来解释。我们使用Python创建和分析高维数据集,以及看到维度魔咒在实践中如何显现。本文中的所有图片,除非另有说明,均为作者原创。

数据集的维度

如前所述,数据集的维度定义为其具有的线性独立特征的数量。线性独立特征不能被写成该数据集中其他特征的线性组合。因此,如果数据集中的特征或列是其他特征的线性组合,它将不会增加该数据集的维度。例如,图1显示了两个数据集。第一个数据集具有两个线性独立的列,其维度为2。在第二个数据集中,一个列是另一个列的倍数,因此我们只有一个独立特征。正如该数据集的图所示,尽管具有两个特征,但所有数据点都沿着一个一维线。因此,该数据集的维度为一。

图1

维度对体积的影响

维度魔咒的主要原因是维度对体积的影响。在这里,我们着重讨论数据集的几何解释。通常,我们…

Leave a Reply

Your email address will not be published. Required fields are marked *