使用转换器(MinMaxScaler、StandardScaler、RobustScaler)
介绍
本文介绍了居中和缩放的概念。通过一个真实的应用案例,我解释了居中和缩放数据的优势。
我们通过查看Scikit-Learn中现成的方法进行简单的计算和解释。
技术上,我们比较了MinMaxScaler、StandardScaler和RobustScaler。它们是转换器中的一部分,用于便捷地进行预处理。
到最后,您将了解居中和缩放数据的目的,并准备好使用现成的Scikit-Learn转换器。
什么是居中和缩放?
理解概念
缩放将数据转换为特定的范围或比例,而居中则涉及将数据点移动,使其平均值变为零。下面是一个示例。
您可以看到缩放和居中数据的效果。现在,右边的数据围绕0居中,并且显示在较短的比例上(X轴和Y轴)。
优势
居中和缩放数据有几个优势,其中对于缩放最重要的有:
- 改善算法性能:使用距离的算法(如K-最近邻算法和K-Means)对数据之间的距离敏感。缩小数据的规模以提高它们的性能。
- 归一化特征:当数据集包含具有不同尺度的特征时,缩放数据可以避免给具有较大量级的特征赋予过多重要性。
- 改善数据比较:由于具有相同的尺度,它便于数据比较。
- 预防数值问题:缩放数据可以预防溢出和下溢的问题(当数字非常小或大时)。
- 减少异常值的影响…