特征选择非常缓慢,因为它需要创建大量的模型。通过近似预测,了解如何使其加速
![“近似预测”使特征选择变得极为快速 四海 第1张-四海吧 [图像由作者提供]](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*hwne71odlFY8z-9RECws_A.png)
在开发机器学习模型时,我们通常从特征工程努力中得到一个大量的特征集合。
特征选择是选择适合我们的机器学习模型的较小子集的过程。
为什么要这样做,而不只是保留所有特征呢?
- 内存。大数据占用大空间。舍弃特征意味着处理数据所需的内存更少。有时也存在外部限制。
- 时间。在较少的数据上重新训练模型可以节省大量时间。
- 准确性。少即是多:这也适用于机器学习。包含冗余或不相关的特征意味着包含不必要的噪声。经常发生的情况是,在较少的数据上训练的模型表现更好。
- 可解释性。较小的模型更容易解释。
- 调试。较小的模型更容易维护和故障排除。
现在,特征选择的主要问题在于它非常缓慢,因为它需要训练许多模型。
在本文中,我们将介绍一种通过“近似预测”使特征选择极快的技巧。
一个非常困难的问题
让我们试着将特征选择的问题可视化。我们从N个特征开始,其中N通常是数百或数千。
因此,特征选择的输出可以被看作是一个长度为N的数组,由“是”/“否”组成,数组的每个元素告诉我们是否选择了相应的特征。
![“近似预测”使特征选择变得极为快速 四海 第2张-四海吧 特征选择的输出。[图像由作者提供]](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*78Y7zGIA_ByzLEBwWwYyqg.png)
特征选择的过程包括尝试不同的“候选项”,最后选择最佳选项(根据我们的性能指标)。