Press "Enter" to skip to content

数据泄露:是什么以及为什么会导致我们的预测系统失败

数据泄露是机器学习项目在投入生产后的主要失败原因之一,与过拟合/欠拟合一起

Grianghraf在Unsplash上的照片

无疑,数据泄露是对数据科学家的威胁,无论资历如何。

这种现象可以影响每个人,即使是在该领域有多年经验的专业人士。

它与过拟合/欠拟合一起,是机器学习项目投入生产后失败的主要原因。

数据泄露发生在训练集中的信息泄漏到评估集(验证集或测试集)中时

但是为什么数据泄露会导致如此多的受害者呢?

因为即使在开发阶段进行了许多实验和评估,我们的模型在生产场景中可能会出现惨败。

避免数据泄露并不容易。我希望通过这篇文章,您能够了解为什么以及如何在项目中避免它!

数据泄露的例子

下面是一个可以帮助您理解什么是数据泄露的例子。

假设我们是应用AI的开发人员,我们受雇于一家系列生产儿童玩具的公司。

我们的任务是创建一个机器学习模型,以确定玩具在售出后的3天内是否会面临退款请求。

我们从工厂那里获得数据,以捕捉装罐前的玩具的图像形式。

Jerry Wang在Unsplash上的照片

我们使用这些图像来训练我们的模型,在交叉验证和测试集上表现非常好。

我们交付模型,在第一个月中,客户仅报告了5%的有缺陷的玩具退款请求。

在第二个月,我们准备重新训练模型。工厂给我们发送更多的照片,我们用它们来……

Leave a Reply

Your email address will not be published. Required fields are marked *