Press "Enter" to skip to content

在解决实际业务问题时,“垃圾进,垃圾出”是什么意思?

由Gary Chan在Unsplash上的照片

以及如何通过实际工作流程避免它

在当今的商业环境中,依靠准确的数据比以往任何时候都更为重要。短语“垃圾进,垃圾出”完美地捕捉到了数据质量在实现成功的数据驱动解决方案中的重要性。虽然使用正确的模型进行预测或分类至关重要,但没有可靠的数据输入,就无法取得良好的结果。通过使用来自可信数据源生成的放大特征,即使是简单的线性回归也可以产生高度准确的结果。在本博客文章中,我将讨论数据在解决现实业务问题中的重要性,并概述创建强大的数据评估流程的步骤,以确保精确建模和智能决策的输入数据质量。

应用数据科学的现实

在担任数据科学家两年多的时间里,我最惊讶的观察之一是我和我的同事们花在数据清洗上的时间有多少。在学校里,我们的注意力通常集中在理解基本算法、模型背后的数学原理、构建预测流程的整体过程等方面。我们通常使用完美的数据集,这些数据集是故意以某种方式起草的,让我们只关注探索性数据分析过程、模型评估和微调部分,这导致我们低估了数据清洗的重要性,直到我们在实际业务数据中遇到问题。真实的业务数据是混乱的。混乱来自但不限于以下方面:

  1. 数据来源的多样性:企业从各种来源积累数据。例如,电子商务公司可以从客户购买、销售计划、制造过程、营销活动等方面收集数据。每个数据源都具有自己独特的数据格式、结构和质量水平。这种不一致性在将所有数据源合并进行后续分析时会带来巨大的挑战。
  2. 人为错误:收集数据需要人的参与,这增加了在过程中出现错误的可能性。人为错误,例如拼写错误、不正确的…
Leave a Reply

Your email address will not be published. Required fields are marked *