AI生成的合成数据

以猫为例，最简单易懂的解释方式！

为什么现在人工智能生成的合成数据如此流行？在本文中，我将用猫来解释我最喜欢的方法！

假设我想从头开始训练一个猫-非猫分类器，但我只有一张照片：

（以下内容都是对人们在处理表格数据和文本数据时所做的事情的类比，因此适用于图像数据之外的领域。）

理想情况下，我需要一个包含成千上万张猫和非猫照片的数据集。如果我有相机并且可以轻松接触到猫，那我可以拍摄一堆和已有照片类似的照片，确保我得到我所设计的数据集：

但是如果我没有相机，而且我住在月球上没有猫呢？我可以从供应商那里获取我所需要的图片，不过我应该小心，因为继承的数据比原始数据更加危险。

但是如果没有供应商愿意卖给我一些猫照片呢？（是的，在互联网上找不到猫照片的情况比住在月球上更像科幻，但请耐心等待。）

那么，如果我既不能收集它们，也不能购买它们，那我只能自己制作。看哪，这是我的杰作：

不理想？是的，画画从来不是我的强项。制作虚假数据的另一种方法是复制现有的数据点，但这对于提供教学上的多样性并不会有太大帮助。

这就像通过一遍又一遍地给人类学生演示同一个例子来进行教学，所以他们只会学到那一件事。如果我的数据集是这张胡克斯利照片的30000份副本…