Press "Enter" to skip to content

使用MakeBlobs和虚构合成数据的新的(有点)用例

通过这个鲜为人知的SkLearn模块为您的项目(和数据科学实践)注入新的活力

来自开放数据科学会议(ODSC)的西部版,其中一个“最热门”的讨论话题是关于合成数据。本文通过对如何使用make_blobs快速创建一个新的虚构数据集的全新视角再次回顾了这个话题。

图片来源:ODSC会议。四位讨论合成数据的专家,包括Ali Golshan、Jay Alammar、Sheamus McGovern和Yashar Behzadi。图片经允许使用。

在数据科学领域的许多实践领域中,虚构但真实的数据的价值往往被低估,而且往往被低估。本文旨在为流行的Scikit-Learn库中的一个鲜为人知的模块make_blobs以及MinMaxScaler这两个模块的结合提供光芒,这对于生成真实虚构数据非常关键,对于数据科学中的训练、测试、教育和演示目的至关重要。

这不是我第一次讨论虚构合成数据的话题。例如,几年前,我写了一篇文章《如何生成虚构数据》,指导读者如何为各种目的生成他们自己的数据集,例如测试、训练或演示。它强调了创建虚构数据的有用性,特别是对于数据科学家和那些学习数据科学的人来说。我还举了一个用Python和诸如Pandas、NumPy和Seaborn等库生成两个虚构鸟类品种——西部和东部的数据的详细示例。

后来在《另外三种生成虚构数据的方法》中,我再次为那些想要更多了解虚构数据的人写了一篇文章。这篇文章的主要观点是每个工具都有其优点和缺点。我建议手动生成数据或使用这些工具的组合可能是完全满足特定虚构数据需求的最佳方式。

我还提倡让数据科学学习者构建自己的数据。这样做可以培养数据处理、数据可视化的技能,也可以建立对数据分布的了解。在《专业的Python制作虚构数据教程》中,我提供了详细的教程。

Leave a Reply

Your email address will not be published. Required fields are marked *