Sklearn教程：模块3

我参加了官方的sklearn MOOC教程。这是我的收获。

这是我的scikit-learn教程系列的第三篇文章。如果你没有看到前面的两篇文章，我强烈推荐你去看一下，这样会更容易跟上：

Sklearn教程：模块1

我参加了官方的sklearn MOOC教程。这是我的收获。

towardsdatascience.com

Sklearn教程：模块2

我参加了官方的sklearn MOOC教程。这是我的收获。

towardsdatascience.com

在这个第三个模块中，我们将了解超参数是什么，以及为什么以及如何优化它们。

Glenn Carstens-Peters在Unsplash上的照片 — 照片由 Glenn Carstens-Peters 在 Unsplash 上提供

什么是超参数

到目前为止，在设置我们的模型时，我们只改变了预处理、模型类型或两者——但我们还没有真正调整模型的超参数。

模型的超参数是由我们这些数据科学家在创建模型/流水线时设置的参数。它们是在模型看到任何数据之前定义模型的参数。你可以说它们允许我们定义相同流水线的不同“变体”。

超参数通常影响模型的复杂性，从而影响学习过程和整体模型性能。作为一个数据科学家，给定一个数据集和你想要解决的问题，你的任务是在“超参数化模型”的无限空间中找到最佳的模型。

超参数不应与在学习过程中由模型学习的内部参数混淆——那些被学习的内部参数也被称为“系数”。例如，在多项式回归中，超参数（在学习之前设置）是回归的度数，而使用训练集学习的内部参数是多项式系数（a/b/c在aX² + bX + c中）。换句话说，你首先设置度数（超参数），然后使用数据进行回归拟合（内部…