Sklearn教程：模块2

我参加了官方的sklearn MOOC教程。这是我的收获。

经过多年的使用Python科学库（NumPy，Matplotlib，SciPy，Pandas和Seaborn），对我来说，下一步是scikit-learn，或者“sklearn”。

这个第二模块专注于模型得分的概念，包括测试得分和训练得分。这些得分用于定义过拟合和欠拟合，以及偏差和方差的概念。

我们还将看到如何根据复杂性和输入样本数量来检查模型的性能。

作者提供所有图片。

如果你错过了，我强烈推荐阅读本系列的第一篇文章 – 这样更容易跟上：

towardsdatascience.com

我想要谈论的第一个概念是训练得分和测试得分。得分是一种数值化表达模型性能的方式。为了计算这样的性能，我们使用一个得分函数，该函数聚合了模型预测结果与真实情况的“距离”或“误差”。例如：

model = LinearRegressor()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
test_score = some_score_function(y_predicted, y_test)

在sklearn中，所有模型（也称为估计器）都提供了一个更快的计算得分的方式：

# 模型将使用X_test计算预测的y值，
# 并使用得分函数将其与y_test进行比较
test_score = model.score(X_test, y_test)
train_score = model.score(X_train, y_train)

模型的实际得分函数取决于模型和其设计解决的问题类型。例如，线性回归模型的得分函数是R²系数（数值回归），而支持向量分类器（分类）将使用准确率，基本上是良好分类预测的数量。