当训练和推理数据来自不同来源时
目录
- 介绍
- 启用数据收集
- 设定基准
- 检测异常值
- 总结
- 参考文献
介绍
本文旨在为初学者或希望改善当前数据验证流程的数据科学家提供一个概要和一些示例。首先,我想在这里定义数据验证,因为它对其他类似的工作角色可能有不同的含义。对于本文而言,我们将认为数据验证是确保用于模型的训练数据与推理数据相匹配或一致的过程。对于一些公司和一些用例,如果数据来自同一来源,您将不需要担心此问题。因此,这个过程必须发生,并且只有在数据来自不同来源时才有用。数据不来自同一来源的原因有很多,比如您的训练数据是历史数据和定制数据(例如,从现有数据派生的特征),以及您的推理数据来自快照数据的实时表。总之,有很多原因导致这种不匹配存在,并且制定一个可扩展的流程以确保您提供给推理模型的数据与训练模型数据一致将非常有益。
启用数据收集
您可以通过很多方式启用数据收集。但是再次强调,首先我们需要定义被收集的数据,即推理数据。我们预期已经有我们的训练数据(包括训练集和测试集)存放在某个地方,例如S3、文件存储工具、数据库中的临时表,甚至是CSV文件等。