Press "Enter" to skip to content

无监督学习系列——探索DBScan

学习使用Python的sklearn库来了解著名的基于密度的聚类算法的理论

来自Kier in Sight Archives的图片 @Unsplash.com

聚类算法是数据科学领域中最常用的解决方案之一,最流行的算法通常分为基于距离和基于密度的方法。虽然常常被忽视,但基于密度的聚类方法是普遍使用的k-means和层次聚类的有趣替代方法。

一些著名的基于密度的聚类技术包括DBScan(基于密度的应用空间聚类与噪声)和Mean-Shift,这两个算法利用数据点的质心将观测结果分组在一起。

在本文中,我们将探讨DBScan,一种特别适用于以下特征的聚类算法:

  • 聚类具有不规则形状。例如,非球形。
  • 与其他方法相比,DBScan不对数据的基础分布做任何先验假设。
  • 您的数据集包含一些相关的异常值,这些值不应影响聚类中心的映射。

如果这三个句子让您感到困惑,别担心!在本文中,我们将逐步实施DBScan方法,并讨论上述主题。此外,我们还将检查著名的sklearn Python库实现!

此外,如果您想查看我关于无监督学习系列的其他帖子,可以查看:

让我们深入了解DBScan的工作原理!

拟合基于距离的聚类解决方案

在这个逐步演练中,我们将使用一个包含有关客户信息的玩具数据集。在这个示例中,我们将使用双变量聚类以便更容易理解。

假设我们经营一家店铺,并且我们拥有关于客户的人口统计信息。我们希望根据他们的年收入和年龄进行一些营销活动,只需

Leave a Reply

Your email address will not be published. Required fields are marked *