Press "Enter" to skip to content

哪些特征对你的分类模型有害?

如何计算分类器特征的错误贡献,以了解和改善模型

[作者提供的图片]

特征重要性是解释机器学习模型最常用的工具。它非常流行,以至于许多数据科学家最终相信特征重要性等于特征的好处。

但事实并非如此。

当一个特征很重要时,它只是意味着模型在训练集上发现了它的用处。然而,这并不能说明该特征在新数据上的泛化能力!

为了考虑到这一点,我们需要区分两个概念:

  • 预测贡献:变量在模型进行预测时的权重。这由模型在训练集上找到的模式决定。这等价于特征重要性。
  • 错误贡献:变量在模型在一组留置数据上产生的错误中的权重。这更好地代表了特征在新数据上的性能。

在本文中,我将解释如何计算这两个量在分类模型上的逻辑。我还将展示一个例子,其中使用错误贡献来进行特征选择比使用预测贡献得到了更好的结果。

如果你对回归比分类更感兴趣,你可以阅读我之前的文章“你的特征很重要?并不意味着它们很好。”

目录

  1. 从一个玩具示例开始
  2. 我们应该使用哪种“错误”来分类模型?
  3. 我们应该如何管理分类模型中的 SHAP 值?
  4. 计算“预测贡献”
  5. 计算“错误贡献”
  6. 一个真实数据集的示例
  7. 证明它的有效性:使用“错误贡献”进行递归特征消除
  8. 结论

1. 从一个玩具示例开始

Leave a Reply

Your email address will not be published. Required fields are marked *