不平衡数据的回归机器学习

为什么在数据集中预测异常值如此困难，以及如何应对

什么是不平衡数据？

许多现实世界的数据集都存在不平衡问题，即某些类型的样本在数据集中过多，而其他类型的样本较少。以下是一些示例：

在将信用卡交易分类为欺诈或合法时，绝大多数交易属于后者
剧烈降雨发生的次数较少，但可能对人类和基础设施造成更大的损害
在尝试识别土地利用时，代表森林和农业的像素比城市定居点更多

在本文中，我们旨在直观地解释为什么机器学习算法在处理不平衡数据时困难重重，展示如何使用分位数评估来量化算法的性能，并向您展示改善算法性能的三种不同策略。

回归问题的示例数据集：加利福尼亚房屋

数据集的不平衡通常在分类问题中进行说明，其中多数类压过了少数类。在这里，我们关注回归问题，其中目标变量是一个连续的数值。我们将使用scikit-learn提供的加利福尼亚房屋数据集。该数据集包含20,000多个样本，包括房屋的位置、房间和卧室数量、房龄、面积和中位数邻居收入等特征。目标变量是以百万美元为单位的中位房价。为了查看数据集是否存在不平衡问题，我们绘制了目标变量的直方图。