Press "Enter" to skip to content

合成数据领域指南

各种虚假数据的指南:第2部分

如果你想处理数据,你有哪些选择?这里有一个尽可能简单的答案:你可以获取真实数据,或者获取虚假数据。

在我之前的文章中,我们熟悉了合成数据的概念,并讨论了创建合成数据的思考过程。我们比较了真实数据、嘈杂数据和手工数据。现在让我们深入了解一下比让人随便选一个数字更高级的合成数据种类…

经典的英国喜剧节目。

(注意:本文中的链接将带您到同一作者的解释器。)

重复数据

也许你测量了10000个真实人类的身高,但你想要20000个数据点。你可以采取的方法之一是假设你现有的数据集已经相当好地代表了你的总体。 (假设总是很危险,请谨慎行事。)然后,你可以简单地复制数据集或复制其中的一部分,使用古老的复制粘贴方法。变魔术!多了一些数据!但这是否是好的和有用的数据?这总是取决于你需要它做什么。对于大多数情况来说,答案可能是否定的。但是嘿,你生来就有头脑,你的头脑是为了思考和运用你最好的判断力。

重采样数据

说到只复制数据的一部分,有一种方法可以注入一点随机性,帮助你确定要选择哪一部分。你可以使用随机数生成器来帮助你从现有的身高列表中选取要绘制的身高。你可以“无放回”地进行这个操作,这意味着你最多复制每个现有的身高一次,但是…

自助法数据

你更常见地看到人们这样做的是“有放回”的,这意味着每次你随机选择一个身高进行复制后,你立即忘记了自己这样做,这样相同的身高可以作为第二、第三、第四等的副本进入你的数据集。也许,如果有足够的兴趣评论,我会解释为什么这是一种强大而有效的技术(是的,起初听起来像巫术,我也这么认为),用于人群推断。

增强数据

增强数据听起来可能很花哨,也确实有一些花哨的增强数据的方法,但通常当你看到这个术语时,它意味着你将重采样的数据加上一些随机噪声。换句话说,你从统计分布中生成一个随机数,然后通常只是将它添加到重采样的数据点中。就这样。这就是增强。

所有图片版权归作者所有。

过采样数据

说到只复制数据的一部分,有一种方法可以有意识地增强某些特征而减弱其他特征。也许你的测量是在一个典型的人工智能会议上进行的,所以女性的身高在你的数据中被低估(这些日子真是可悲但属实)。这就是所谓的“不平衡数据”问题。有一些技术可以重新平衡这些特征的表示,比如SMOTE(合成少数类过采样技术),它几乎就是它听起来的样子。解决这个问题最简单的方法是只对少数数据点进行重采样,忽略其他数据。所以在我们的例子中,你只会对女性的身高进行重采样,而忽略其他数据。你也可以考虑更复杂的增强方法,但仍然限制在女性身高上。

如果你想变得更加高级,你可以查找ADASYN(自适应合成采样)等技术,并按照超出本主题的快速介绍的信息进行深入研究。

边缘情况数据

你还可以制造(手工)数据,这些数据与你(或任何人)以前见过的任何东西都完全不同。如果你试图用它来创建现实世界的模型,这将是一个非常愚蠢的事情,但如果你要用它来测试你的系统处理奇怪情况的能力,那就很聪明了。为了了解当你的模型/理论/系统遇到异常值时是否会出错,你可以故意制造合成的异常值。来吧,输入一个3米的高度,看看会发生什么爆炸。有点像工作中的消防演习。(不要在建筑物中放置真正的火灾或真正的异常值。)

http://bit.ly/quaesita_ytoutliers

模拟数据

一旦您对根据自己的规格创建数据感到舒适,您可能想进一步创建一个描述所需数据集中底层性质的配方。如果有一个随机成分,那么您实际上是从允许您指定核心原则的统计分布中进行模拟,这由一个模型来描述(这只是一种说“您将用作配方的公式” 的花哨方式),并具有随机位的工作规则。与香草数据增强技术将随机噪声添加到现有数据点不同,您可以将噪声添加到您提出的一组规则中,通过冥想或使用相关数据集进行一些统计推断。在这里了解更多信息。

所有图片版权归作者所有。

超越单一数字

身高?等等,你要求我一次只提供一个高度的数据集?多无聊啊!多……软盘时代的我们。我们把这称为单变量数据,这种数据在野外收集起来越来越少见。

现在我们有了不可思议的存储容量,数据可以以更有趣和复杂的形式呈现。在测量身高时,很容易获取一些额外的特征。我们还可以记录发型,使我们的数据成为双变量数据。但为什么要止步于此?年龄也可以加入,这样我们的数据就是多变量的了。多有趣啊!

但是现在,我们可以疯狂地将所有这些与图像数据(在测量身高时拍照)和文本数据(他们写的关于他们的统计课程无聊程度的文章)相结合。我们称之为多模态数据,我们也可以合成这种数据!如果您想了解更多信息,请在评论中告诉我。

为什么有人想制造合成数据?爱它的理由很充分,但也有一些坚决要避免它的理由(即将发布的文章),但如果您是一名数据科学专业人员,请参阅这篇文章,了解我认为您应该经常使用它的原因。

谢谢阅读!想学习YouTube课程吗?

如果您在这里玩得开心,而且您正在寻找一个既适合初学者又适合专家的整个应用AI课程,这是我为您制作的一个课程,供您娱乐:

在YouTube上享受课程。

附言:您是否尝试过在小猪AI上多次点击拍手按钮,看看会发生什么?❤️

Leave a Reply

Your email address will not be published. Required fields are marked *