在KNN分类器中的维度灾难

探索聚类算法中“高维度”的问题

在本文中，我们将探索KNN算法中维度诅咒的影响，从简要介绍KNN算法开始，逐步理解维度诅咒本身。

这对谁有用？熟悉机器学习和聚类算法的人以及所有即将了解的人。

这篇文章有多高级？这篇文章主要面向经验丰富的工程师。

先决条件：本文中我会简要介绍KNN算法，但您可以参考以下文章以获得更多的信息。

towardsdatascience.com

在深入研究维度诅咒之前，我想简要介绍一下KNN算法。从最基本的意义上讲，KNN算法将相似的项目捆绑在一起，并且在特征空间中找到“最近邻”。

工作原理如下：给定一个带有标记点的数据集，当您想要对新的数据点进行分类时，KNN识别特征空间中K个最近的点。然后通过从这些K个最近邻中的大多数（用于分类）或平均值（用于回归）来确定给新点分配的类别或数值。通常情况下，“最近”的定义是通过距离度量，常用的是欧几里德距离。

KNN假设特征空间中相似的实例往往具有相似的结果。它是一种非参数和基于实例的算法，这意味着它不对底层数据分布做出假设，并且依赖整个数据集进行预测。这种简单性有助于它的流行，但它对维度诅咒具有一定的敏感性…