了解这些度量如何帮助我们量化数据集中的不确定性

熵 和 基尼指数 是重要的机器学习概念,尤其对于决策树算法有很大帮助,用于确定分割的质量。这两个度量指标的计算方式不同,但最终用于量化数据集中的不确定性(或不纯度)。
熵(或基尼指数)越高,数据越随机(混合)。
让我们形象地了解数据集中不纯度的概念,以及这些度量如何帮助衡量它们。(在我们的场景中,不纯度、不确定性、随机性、异质性等可以互换使用,最终的目标是减少它们以获得更好的清晰度)。
通过示例解释不纯度
假设你和你的朋友 — 爱丽丝和鲍勃一起去超市买水果。你们每个人都拿了一个购物车,因为你们都不喜欢分享你们的水果。让我们看看你们买了什么(看起来你们都喜欢苹果!):

这三辆购物车可以看作是三个不同的数据分布。如果我们最初假设有两个类别(苹果和香蕉),那么后面的解释将是不正确的。相反,将每辆推车视为不同的分布 — 所以第一辆推车是一个数据分布,其中所有数据点都属于同一个类别,第二和第三辆推车是包含两个类别的数据分布。
从上面的例子来看,很容易确定有最纯净或最不纯的数据分布(准确地说是类别分布)。但是为了在一个数据集中对纯度进行数学量化,以便算法可以做出决策,熵和基尼指数就可以派上用场。
这两个度量指标都考虑了数据集中每个类别的发生概率(或存在概率)。在我们的例子中,每种情况下总共有8个数据点(水果),所以我们可以…