学习使用Python的sklearn库来了解著名的基于密度的聚类算法的理论
聚类算法是数据科学领域中最常用的解决方案之一,最流行的算法通常分为基于距离和基于密度的方法。虽然常常被忽视,但基于密度的聚类方法是普遍使用的k-means和层次聚类的有趣替代方法。
一些著名的基于密度的聚类技术包括DBScan(基于密度的应用空间聚类与噪声)和Mean-Shift,这两个算法利用数据点的质心将观测结果分组在一起。
在本文中,我们将探讨DBScan,一种特别适用于以下特征的聚类算法:
- 聚类具有不规则形状。例如,非球形。
- 与其他方法相比,DBScan不对数据的基础分布做任何先验假设。
- 您的数据集包含一些相关的异常值,这些值不应影响聚类中心的映射。
如果这三个句子让您感到困惑,别担心!在本文中,我们将逐步实施DBScan方法,并讨论上述主题。此外,我们还将检查著名的sklearn Python库实现!
此外,如果您想查看我关于无监督学习系列的其他帖子,可以查看:
让我们深入了解DBScan的工作原理!
拟合基于距离的聚类解决方案
在这个逐步演练中,我们将使用一个包含有关客户信息的玩具数据集。在这个示例中,我们将使用双变量聚类以便更容易理解。
假设我们经营一家店铺,并且我们拥有关于客户的人口统计信息。我们希望根据他们的年收入和年龄进行一些营销活动,只需…