Press "Enter" to skip to content

130个机器学习技巧和资源精心策划,历时3年(附赠免费电子书)

每个都值得你花时间

由我使用Midjourney生成的图片。除非我另有说明,其余所有图片和GIF均由我生成。

介绍

在数据科学和机器学习中,有两种类型的技巧:一种是罕见而非常酷的技巧。它们旨在吸引你的注意力,但最终你将永远不会使用它们,因为它们的使用案例太狭窄。想象一下那些在可读性上非常糟糕的Python一行代码。

在第二类别中,有一些罕见、酷而且非常有用的技巧,你将立即在工作中开始使用它们。

在我的三年数据之旅中,我收集了100多个属于第二类别(有时可能与第一类别有一些重叠)的技巧和资源,并将它们精选成一本在线书籍——《欺骗数据科学》。

虽然在线书籍中有200多个项目并且组织得井井有条,但我将最好的130个放在一篇文章中,因为VoAGI提供了更好的阅读体验。

请享受!

如果你想跳过全文直接进入书籍——我是说,50分钟啊,谁会这么做呢?——在这样做之前,请给我点赞并关注我:)

技巧

1. 使用ELI5进行排列重要性

排列重要性是查看模型中重要特征的最可靠方法之一。

它的优势:

  1. 适用于任何模型结构
  2. 易于解释和实现
  3. 一致可靠

一个特征的排列重要性被定义为在该特征随机洗牌后模型性能的变化。

通过eli5包可以获取排列重要性。以下是XGBoost回归模型的排列重要性得分👇

show_weights函数显示了在洗牌后对模型性能影响最大的特征,即最重要的特征。

Leave a Reply

Your email address will not be published. Required fields are marked *