我参加了官方的sklearn MOOC教程。这是我的收获。
这是我的scikit-learn教程系列的第三篇文章。如果你没有看到前面的两篇文章,我强烈推荐你去看一下,这样会更容易跟上:
Sklearn教程:模块1
我参加了官方的sklearn MOOC教程。这是我的收获。
towardsdatascience.com
Sklearn教程:模块2
我参加了官方的sklearn MOOC教程。这是我的收获。
towardsdatascience.com
在这个第三个模块中,我们将了解超参数是什么,以及为什么以及如何优化它们。
什么是超参数
到目前为止,在设置我们的模型时,我们只改变了预处理、模型类型或两者——但我们还没有真正调整模型的超参数。
模型的超参数是由我们这些数据科学家在创建模型/流水线时设置的参数。它们是在模型看到任何数据之前定义模型的参数。你可以说它们允许我们定义相同流水线的不同“变体”。
超参数通常影响模型的复杂性,从而影响学习过程和整体模型性能。作为一个数据科学家,给定一个数据集和你想要解决的问题,你的任务是在“超参数化模型”的无限空间中找到最佳的模型。
超参数不应与在学习过程中由模型学习的内部参数混淆——那些被学习的内部参数也被称为“系数”。例如,在多项式回归中,超参数(在学习之前设置)是回归的度数,而使用训练集学习的内部参数是多项式系数(a/b/c在aX² + bX + c中)。换句话说,你首先设置度数(超参数),然后使用数据进行回归拟合(内部…