Press "Enter" to skip to content

机器学习:理解中心化和标准化的目的

使用转换器(MinMaxScaler、StandardScaler、RobustScaler)

缩放,图片来自Flo的OpenSea

介绍

本文介绍了居中和缩放的概念。通过一个真实的应用案例,我解释了居中和缩放数据的优势。

我们通过查看Scikit-Learn中现成的方法进行简单的计算和解释。

技术上,我们比较了MinMaxScaler、StandardScaler和RobustScaler。它们是转换器中的一部分,用于便捷地进行预处理。

到最后,您将了解居中和缩放数据的目的,并准备好使用现成的Scikit-Learn转换器。

什么是居中和缩放?

理解概念

缩放将数据转换为特定的范围或比例,而居中则涉及将数据点移动,使其平均值变为零。下面是一个示例。

Flo的图片

您可以看到缩放和居中数据的效果。现在,右边的数据围绕0居中,并且显示在较短的比例上(X轴和Y轴)。

优势

居中和缩放数据有几个优势,其中对于缩放最重要的有:

  • 改善算法性能:使用距离的算法(如K-最近邻算法和K-Means)对数据之间的距离敏感。缩小数据的规模以提高它们的性能。
  • 归一化特征:当数据集包含具有不同尺度的特征时,缩放数据可以避免给具有较大量级的特征赋予过多重要性。
  • 改善数据比较:由于具有相同的尺度,它便于数据比较。
  • 预防数值问题:缩放数据可以预防溢出和下溢的问题(当数字非常小或大时)。
  • 减少异常值的影响
Leave a Reply

Your email address will not be published. Required fields are marked *