Press "Enter" to skip to content

“近似预测”使特征选择变得极为快速

特征选择非常缓慢,因为它需要创建大量的模型。通过近似预测,了解如何使其加速

[图像由作者提供]

在开发机器学习模型时,我们通常从特征工程努力中得到一个大量的特征集合。

特征选择是选择适合我们的机器学习模型的较小子集的过程

为什么要这样做,而不只是保留所有特征呢?

  • 内存。大数据占用大空间。舍弃特征意味着处理数据所需的内存更少。有时也存在外部限制。
  • 时间。在较少的数据上重新训练模型可以节省大量时间。
  • 准确性。少即是多:这也适用于机器学习。包含冗余或不相关的特征意味着包含不必要的噪声。经常发生的情况是,在较少的数据上训练的模型表现更好。
  • 可解释性。较小的模型更容易解释。
  • 调试。较小的模型更容易维护和故障排除。

现在,特征选择的主要问题在于它非常缓慢,因为它需要训练许多模型。

在本文中,我们将介绍一种通过“近似预测”使特征选择极快的技巧。

一个非常困难的问题

让我们试着将特征选择的问题可视化。我们从N个特征开始,其中N通常是数百或数千。

因此,特征选择的输出可以被看作是一个长度为N的数组,由“是”/“否”组成,数组的每个元素告诉我们是否选择了相应的特征。

特征选择的输出。[图像由作者提供]

特征选择的过程包括尝试不同的“候选项”,最后选择最佳选项(根据我们的性能指标)。

Leave a Reply

Your email address will not be published. Required fields are marked *