“机器学习实际数据收集指南”

5个可操作的策略，优化您的数据收集流程

无论您是数据科学的新手还是大型组织的首席数据科学家，您都可能使用完美制作的数据集来解决玩具机器学习问题。也许您曾使用K均值聚类来预测鸢尾花数据集中的花种类。或者您可能尝试过逻辑回归模型来预测哪些乘客在泰坦尼克号航行中幸存。

虽然这些数据集非常适合练习机器学习的基础知识，但它们并不反映您在工作中会遇到的现实世界数据。实际上，您的数据可能存在质量问题，可能不完全适合手头的任务，或者可能尚不存在。这意味着数据科学家经常需要动手收集数据——这是当今数据科学课程中往往没有涵盖的挑战。

对于新的数据科学家来说，在深入研究问题之前收集大量的数据可能会感到非常艰巨，因为这个阶段为整个机器学习项目奠定了基础。然而，通过正确的策略，这个过程可以变得更加可管理。

在我作为数据科学家的10多年中，我遇到了各种各样的数据收集策略，在本文中，我将分享我最喜欢的五个优化数据收集流程的技巧，帮助您创建成功的机器学习产品。

一个强大的起点在于从一开始就提供切实的价值。让我们借用汽车行业的一家重要参与者特斯拉的例子。他们对完全自动驾驶汽车的追求是一个庞大的目标，这个目标已经花费了多年的时间来开发，并且需要大量的数据收集。

那么，在积累所有这些数据的同时，他们做了什么呢？