Press "Enter" to skip to content

什么是合成数据?

一份关于各种虚假数据种类的指南:第1部分

合成数据可以直截了当地说就是假数据。也就是说,它不是来自你所感兴趣的总体的实际数据。(”总体”是数据科学中的一个技术术语,我在这里解释了。)它是你计划将其视为来自你希望来自的地方/群体的数据。(实际上它并不是。)

合成数据可以直截了当地说就是假数据。

人工数据、合成数据、假数据和模拟数据都是略有不同的时期流行词的同义词,因此它们都带有不同时代的诗意内涵。当今时代,时髦的年轻人更喜欢使用合成数据这个流行词,可能是因为投资者需要相信有新东西被发明出来了,而不是被重新发现。这里确实有一些稍微新颖的东西,但(在我看来)还不足以使所有旧的想法都变得无关紧要。

让我们深入了解一下!

所有图片版权归作者所有。

(注意:本文中的链接将带您访问同一作者的解释文档。)

无尽可能性

如果你像我一样痛苦地经历过高级概率和测度论的研究课程(我和我的心理治疗师在十多年后仍在努力应对),你会过多地意识到有无穷多的实数。无穷意味着,如果你试图列举它们所有,我可以像个混蛋一样出现,给你找到一个新的,例如在你最大的数上加1,取你最接近的两个数的平均值,或在小数点后最长的数字系列之后的数字后面加上一个数字。

这也意味着,即使你给我列出人类在整个人类历史上记录的所有数字,我仍然可以制造出一个全新的数字。嘭!这就是力量。

我要表达的除了为你下一次啤酒辩论提供素材,讨论是否存在真正的原创性(呃)?

合成数字

假设你有一个充满人类身高的数据集。在任意两个测量值之间(例如173厘米和174厘米,这是你可以找到我的身高的范围),你可以写下无数个数字。只需将小数点的位数延长到超出我们测量工具的合理范围。超出亚原子粒子。超出常识。我仍然可以编造出很多数字,例如:173.4335524095820398502639008342984598739874944444443842397593645873649572850263894458092843956389479592489586232342349832842849687394208287645545352525353353826482384724628732648732799999992323…

管理生成这个愚蠢数字的规则完全超出了有用和实际的范畴,所以当你要求我给你一个可以代表人类身高的数字,你如何处理你的请求呢?

真实世界数据

一种选择是给你来自真实人类的真实数据。我四处看看房间,发现了我最好的朋友Heather(真实故事,她向你问好),并为你的数据集测量了她的身高。如果你感兴趣的总体是所有人类,如果(而这是一个大的如果)我按照你规定的测量规则来测量她的身高,那么她的身高将成为你的数据集中合法的数据点。

噪声数据

如果我用笔记本电脑(对不起,我没带卷尺去我们的周末度假)以最接近13英寸的方式测量Heather的身高,而你用那种米尺以毫米为单位测量身高,我们会遇到问题。

当我们说噪声数据时,我们指的是其中存在非确定性错误的数据,这些错误隐藏了真实的答案。如果我突然决定用笔记本电脑来测量Heather的身高,这正是会发生的事情。(或者用Smoots测量。)

我给你提供的任何测量数据都会带有随机误差,这个误差的特点与你的其他数据不同。为了处理我们潜在地开启的一罐虫子,请务必包含数据来源的记录。(是你还是我收集的数据?)你随时可以删除我的记录……只要它们不混在你的合法贡献中。

在收集现实世界的数据时,出错是令人惊讶地容易。要了解更多,请查看我关于数据设计和数据收集的系列文章:

数据设计的隐秘艺术

与数字时代的尴尬新炼金术战斗

towardsdatascience.com

简单随机抽样:真的简单吗?

如何为数据项目创建抽样计划

towardsdatascience.com

手工制作的数据

假设没有人进行测量,但你仍然想要另一个数据点?(为什么你可能想这么做,以及这样做的利弊是什么?请查看我的下一篇博客文章!)

那么你就表示你接受合成数据。(如果你允许合成数据进入你的项目,请始终记录哪些数据点是合成的以及它们是如何生成的!)

我也可以通过随意捏造一个不遵循任何规则的数字来提供一个身高数据点。如果我特别刁钻,我甚至可能给出一个复数,比如-5 + 60*sqrt(-1),只是为了捉弄你。你说我不能这样做吗?你应该这么说。如果你允许我编造东西,你就需要限制我的创造力。

不能使用虚数?好的,那-100怎么样?

哦,它必须在实际人类身高范围内?那之前提到的那个173.43355240…的数字怎么样?

因为人类测量仪器没有那么敏感,小数位数太多了?好的,那173.5厘米怎么样?

我们可以称之为手工制作的数据,因为这是我作为一个人手工制作的一个我喜欢的示例。

但是,如果你想要更多新的身高数据,而且要求我合理一点,将选择结果四舍五入到最近的毫米?

那么,我可能会得出以下结果:173.5厘米,182.4厘米,175.1厘米,190.2厘米,180.1厘米

这些都是可能的人类测量数据,但它们偏向较高的一侧。它们很可能不能很好地代表你感兴趣的人群。它们受到我对你的数据集中良好数据条目的理念的影响。而我对人类身高又了解多少呢?你可以做得更好。

所以让我们在第二部分中做得更好,我们将涵盖以下内容:

  • 重复数据
  • 重新采样数据
  • 自举数据
  • 增强数据
  • 过采样数据
  • 边界情况数据
  • 模拟数据
  • 单变量数据
  • 双变量数据
  • 多变量数据
  • 多峰数据

或者你也可以在这里查看我其他的数据分类指南:

你能说出多少种数据类型?

连续、离散、分类、基数、顺序……继续!

towardsdatascience.com

关于数据来源的一切

混淆的数据、继承的数据、耗尽的数据和其他小精灵

towardsdatascience.com

谢谢阅读!要不要来个YouTube课程?

如果你在这里玩得开心,并且正在寻找一个既适合初学者又适合专家的整个应用AI课程,这是我为你的娱乐而制作的课程:

在YouTube上享受这门课程 这里

附言:你曾经尝试过在小猪AI上点击多次鼓掌按钮看看会发生什么吗?❤️

所有图片版权归作者所有。
Leave a Reply

Your email address will not be published. Required fields are marked *