Press "Enter" to skip to content

在KNN分类器中的维度灾难

探索聚类算法中“高维度”的问题

来源:https://scipy-lectures.org/packages/scikit-learn/auto_examples/plot_iris_knn.html

在本文中,我们将探索KNN算法中维度诅咒的影响,从简要介绍KNN算法开始,逐步理解维度诅咒本身。

这对谁有用?熟悉机器学习和聚类算法的人以及所有即将了解的人。

这篇文章有多高级?这篇文章主要面向经验丰富的工程师。

先决条件:本文中我会简要介绍KNN算法,但您可以参考以下文章以获得更多的信息。

KNN算法:什么?何时?为什么?如何?

KNN:K最近邻是开始机器学习的基本算法之一。机器学习模型使用…

towardsdatascience.com

KNN简介

在深入研究维度诅咒之前,我想简要介绍一下KNN算法。从最基本的意义上讲,KNN算法将相似的项目捆绑在一起,并且在特征空间中找到“最近邻”。

工作原理如下:给定一个带有标记点的数据集,当您想要对新的数据点进行分类时,KNN识别特征空间中K个最近的点。然后通过从这些K个最近邻中的大多数(用于分类)或平均值(用于回归)来确定给新点分配的类别或数值。通常情况下,“最近”的定义是通过距离度量,常用的是欧几里德距离。

作者提供的图片

KNN假设特征空间中相似的实例往往具有相似的结果。它是一种非参数和基于实例的算法,这意味着它不对底层数据分布做出假设,并且依赖整个数据集进行预测。这种简单性有助于它的流行,但它对维度诅咒具有一定的敏感性…

Leave a Reply

Your email address will not be published. Required fields are marked *