PYTHON | 数据 | 机器学习
为什么、如何和什么的指南
简介
聚类一直是我非常关注的一个话题。尤其是当我刚开始接触整个机器学习领域时,无监督聚类对我来说总是具有一种吸引力。
简单来说,聚类就像是机器学习中不声不响的英雄。这种无监督学习形式旨在将相似的数据点分组。
想象一下自己参加一个社交聚会,每个人都是陌生人。
你会如何解读这个群体?
也许可以根据共同特征将人群分组,比如那些为一个笑话而笑的人、沉浸在足球讨论中的爱好者,或者被文学讨论吸引的群体。这就是聚类的要点!
你可能会想,“这有什么关联呢?”
聚类有许多应用。
- 客户细分 – 帮助企业根据购买模式对客户进行分类,以调整其营销策略。
- 异常检测 – 发现异常数据点,例如银行中的可疑交易。
- 优化资源利用 – 通过配置计算集群。
然而,有一个警告。
我们如何确保我们的聚类工作成功?
我们如何高效评估聚类解决方案?
这就是需要强大的评估方法的要求。
如果没有强大的评估技术,我们有可能最终得到一个在纸上看起来很有前途,但在实际场景中表现糟糕的模型。
在本文中,我们将探讨两种著名的聚类评估方法:轮廓系数(Silhouette score)和基于密度的聚类验证(Density-Based Clustering Validation,DBCV)。我们将深入研究它们的优点、局限性和理想的使用场景。