Press "Enter" to skip to content

数据分析师数据清洗指南

如何处理不同类型的数据清洗

Image by Janeke88 from Pixabay

尽管有很多资源可以学习技术技能,但很少有资源深入介绍如何清洗数据-这是数据分析师所需的基本技能。你可能认为可以应用相同的规则来清洗数据,但并非总是如此。今天我想分享一下我作为数据分析师多年来在数据分析和报告中如何处理不同类型数据清洗方面的经验。

数值型数据

数值型数据是指对数据分析和报告有用的数据。一个好的经验法则是,如果平均值有用的话。例如,数值型的订单号字段的平均值是无意义的。然而,收入金额的平均值是有用的。

以数值字段存储的数字

对于以数字字段保存的数字,应用以下清洗规则:

  1. 计算最小值最大值中位数99th百分位数平均值。如果最小值为负数,但值应该是零或更高,则在适用的情况下将其替换为零。在下面的示例销售数据中,请注意第13行$800的中位数和第12行$20,560的平均值之间的巨大差异。如果中位数和平均值或最大值和99th百分位数之间有很大差异,我通常会检查是否存在异常值,特别是如果我对数据不熟悉。如果你要报告包括第4行中的$100,000在内的平均销售额,那么它将是$20,560,而不是排除了$100,000的$560。这就是为什么检查异常值并排除它们是有好处的,特别是如果你计划报告平均值或使用数据来构建机器学习模型,因为异常值可能会影响模型结果。根据最重要的字段优先处理,因为你可能有几十个字段需要检查,如果要全部检查将会非常耗时。

2. 计算缺失和非缺失值的数量。如果缺失值的数量超过非缺失值,则该数值字段可能无法在你的分析中使用。例如,如果你有1,000条记录,但其中900条是缺失的,那么100条非缺失值在你的分析中可能不会有用。如果缺失值的数量少于非缺失值,则在适用的情况下用零替换缺失值。如果缺失意味着一个值…

Leave a Reply

Your email address will not be published. Required fields are marked *