Press "Enter" to skip to content

为什么在机器学习中进行特征缩放很重要?讨论6种特征缩放技术

标准化、归一化、鲁棒缩放、均值归一化、最大绝对值缩放和向量单位长度缩放

Photo by Mediamodifier on Unsplash

许多机器学习算法需要将特征放在相同的尺度上。

在不同的场景中,我们可以选择不同类型的特征缩放方法。它们有不同的(技术)名称。术语特征缩放简单地指的是这些方法中的任何一种。

主题------1. 不同场景中的特征缩放   a. 主成分分析中的特征缩放   b. k-means中的特征缩放   c. KNN和SVM中的特征缩放   d. 线性模型中的特征缩放   e. 神经网络中的特征缩放   f. 收敛中的特征缩放   g. 基于树的算法中的特征缩放   h. LDA中的特征缩放2. 特征缩放方法   a. 标准化   b. 最小-最大缩放(归一化)   c. 鲁棒缩放   d. 均值归一化   e. 最大绝对值缩放   f. 向量单位长度缩放3. 特征缩放和数据分布4. 特征缩放时的数据泄漏5. 特征缩放方法总结

不同场景中的特征缩放

  • 主成分分析中的特征缩放:在主成分分析中,如果原始特征的相对范围不一致,PCA的分量对于原始特征的相对范围非常敏感。PCA试图选择最大化数据方差的分量。如果某些特征的范围较大导致方差最大化,这些特征可能会在PCA过程中占主导地位。在这种情况下,真实的方差可能无法被分量捕捉到。为了避免这种情况,通常在进行PCA之前进行特征缩放。然而,有两个例外情况。如果特征之间的尺度没有显著差异,例如,一个特征的范围在0到1之间,另一个特征的范围在0到1.2之间,我们不需要进行特征缩放,尽管进行特征缩放也不会有害!如果通过分解相关矩阵而不是协方差矩阵进行PCA,即使特征的尺度不一致,也不需要进行特征缩放…
Leave a Reply

Your email address will not be published. Required fields are marked *