Press "Enter" to skip to content

Sklearn教程:模块2

我参加了官方的sklearn MOOC教程。这是我的收获。

经过多年的使用Python科学库(NumPy,Matplotlib,SciPy,Pandas和Seaborn),对我来说,下一步是scikit-learn,或者“sklearn”。

Nick Morrison在Unsplash上的照片

这个第二模块专注于模型得分的概念,包括测试得分和训练得分。这些得分用于定义过拟合和欠拟合,以及偏差和方差的概念。

我们还将看到如何根据复杂性和输入样本数量来检查模型的性能。

作者提供所有图片。

如果你错过了,我强烈推荐阅读本系列的第一篇文章 – 这样更容易跟上:

Sklearn 教程:模块 1

我参加了官方的sklearn MOOC教程。这是我的收获。

towardsdatascience.com

得分:训练得分和测试得分

我想要谈论的第一个概念是训练得分和测试得分。得分是一种数值化表达模型性能的方式。为了计算这样的性能,我们使用一个得分函数,该函数聚合了模型预测结果与真实情况的“距离”或“误差”。例如:

model = LinearRegressor()
model.fit(X_train, y_train)
y_predicted = model.predict(X_test)
test_score = some_score_function(y_predicted, y_test)

在sklearn中,所有模型(也称为估计器)都提供了一个更快的计算得分的方式:

# 模型将使用X_test计算预测的y值,
# 并使用得分函数将其与y_test进行比较
test_score = model.score(X_test, y_test)
train_score = model.score(X_train, y_train)

模型的实际得分函数取决于模型和其设计解决的问题类型。例如,线性回归模型的得分函数是R²系数(数值回归),而支持向量分类器(分类)将使用准确率,基本上是良好分类预测的数量。

Leave a Reply

Your email address will not be published. Required fields are marked *