熵和基尼系数介绍

了解这些度量如何帮助我们量化数据集中的不确定性

熵和基尼指数是重要的机器学习概念，尤其对于决策树算法有很大帮助，用于确定分割的质量。这两个度量指标的计算方式不同，但最终用于量化数据集中的不确定性（或不纯度）。

熵（或基尼指数）越高，数据越随机（混合）。

让我们形象地了解数据集中不纯度的概念，以及这些度量如何帮助衡量它们。（在我们的场景中，不纯度、不确定性、随机性、异质性等可以互换使用，最终的目标是减少它们以获得更好的清晰度）。

假设你和你的朋友 — 爱丽丝和鲍勃一起去超市买水果。你们每个人都拿了一个购物车，因为你们都不喜欢分享你们的水果。让我们看看你们买了什么（看起来你们都喜欢苹果！）：

这三辆购物车可以看作是三个不同的数据分布。如果我们最初假设有两个类别（苹果和香蕉），那么后面的解释将是不正确的。相反，将每辆推车视为不同的分布 — 所以第一辆推车是一个数据分布，其中所有数据点都属于同一个类别，第二和第三辆推车是包含两个类别的数据分布。

从上面的例子来看，很容易确定有最纯净或最不纯的数据分布（准确地说是类别分布）。但是为了在一个数据集中对纯度进行数学量化，以便算法可以做出决策，熵和基尼指数就可以派上用场。

这两个度量指标都考虑了数据集中每个类别的发生概率（或存在概率）。在我们的例子中，每种情况下总共有8个数据点（水果），所以我们可以…