避免直方图中最危险的陷阱
![3个最佳(通常更好的)直方图替代方法 四海 第1张-四海吧 由我用Leonardo AI创建的图像](https://miro.medium.com/v2/resize:fit:640/format:webp/1*X_cjxAxJHkuQMfKX65knPw.jpeg)
分箱偏差,直方图的最大缺陷
直方图可能是你作为数据科学家开始学习时首先使用的绘图之一。它们直观且易于理解分布的形状。
然而,随着你在学习过程中的进展,你会发现直方图并不那么完美。直方图将值分组为称为“箱子”的间隔,直方图中每个箱子的高度表示该箱子中的点数。看看这个例子:
![3个最佳(通常更好的)直方图替代方法 四海 第2张-四海吧 作者创作的图像](https://miro.medium.com/v2/resize:fit:640/format:webp/1*yNsEZ2tjZoiIwVQUcoCcJg.png)
从这个直方图中,我们可以立即看出大多数分数在60到80之间。让我们看看如果将箱子数量从10个改为20个会发生什么:
![3个最佳(通常更好的)直方图替代方法 四海 第3张-四海吧 作者创作的图像](https://miro.medium.com/v2/resize:fit:640/format:webp/1*dkF9R4OYkX59jC9uHZpLOA.png)
仍然,之前的趋势是明显的。让我们再次进行更改,这次从20个改为40个:
![3个最佳(通常更好的)直方图替代方法 四海 第4张-四海吧 作者创作的图像](https://miro.medium.com/v2/resize:fit:640/format:webp/1*AWkDnFaO8diVDNiJ4dU4Tw.png)
现在,我们可以看到分布并不像看起来那样平滑。你可以注意到40、62、68和80周围有小的峰值,当使用40个箱子时。因此,箱子的数量可能会掩盖对我们分布的重要洞察。
然而,将箱子的数量改变得太多可能会引入随机噪声,并使其看起来像是一个重要的发现。这就带来了直方图中的分箱偏差,这是直方图的最大缺陷。
分箱偏差是直方图的一个陷阱,当你改变箱子的数量进行绘图时,你将得到相同数据的不同表达。
在后面的部分中,我们将看到三种避免分箱偏差并提供更好结果以比较分布的直方图替代方法。