学习如何用几行Python代码防止数据质量问题
当您与公司进行数据科学项目时,通常没有独特的测试集,不像大学和研究,而是会不断收到来自客户的新样本。
在将机器学习模型应用于新样本之前,您需要验证其数据质量,例如列名、列类型和字段的分布,这些应与训练和旧的测试集相匹配。
当数据不干净并且具有100多个特征时,手动分析数据可能会耗费大量时间。幸运的是,有一个救命的Python库,叫做Great Expectations。我引起了你的兴趣吗?让我们开始吧!
Great Expectations是什么?

Great Expectations是一个开源的Python库,专门解决数据管理的三个重要方面:
- 验证数据,通过验证是否满足一些重要条件或期望来验证数据
- 自动化数据分析,快速测试数据而无需从头开始
- 格式化文档,包含期望和验证结果。
在本教程中,我们将重点关注验证数据,这是处理现实世界数据时的主要问题之一。
阿姆斯特丹的Airbnb房源
我们将分析由Inside Airbnb提供的阿姆斯特丹的Airbnb房源。我们将使用来自阿姆斯特丹的数据进行工作。数据集已经拆分为训练集和测试集。从数据集的名称可以猜到,目标是预测房源价格。如果我们只关注评论数量,我们可以注意到测试数据的评论数量比训练集的评论数量更具变化性。