机器学习中的聚类评估

PYTHON | 数据 | 机器学习

聚类一直是我非常关注的一个话题。尤其是当我刚开始接触整个机器学习领域时，无监督聚类对我来说总是具有一种吸引力。

简单来说，聚类就像是机器学习中不声不响的英雄。这种无监督学习形式旨在将相似的数据点分组。

想象一下自己参加一个社交聚会，每个人都是陌生人。

你会如何解读这个群体？

也许可以根据共同特征将人群分组，比如那些为一个笑话而笑的人、沉浸在足球讨论中的爱好者，或者被文学讨论吸引的群体。这就是聚类的要点！

你可能会想，“这有什么关联呢？”

聚类有许多应用。

然而，有一个警告。

我们如何确保我们的聚类工作成功？

我们如何高效评估聚类解决方案？

这就是需要强大的评估方法的要求。

如果没有强大的评估技术，我们有可能最终得到一个在纸上看起来很有前途，但在实际场景中表现糟糕的模型。

在本文中，我们将探讨两种著名的聚类评估方法：轮廓系数（Silhouette score）和基于密度的聚类验证（Density-Based Clustering Validation，DBCV）。我们将深入研究它们的优点、局限性和理想的使用场景。