亚马逊研究人员推出了一种名为“HandsOff”的方法，可以消除手动注释合成图像数据的需求

亚马逊研究人员推出了一种名为“HandsOff”的方法，可以消除手动注释合成图像数据的需求四海第1张

使用机器学习（ML）模型进行计算机视觉任务通常严重依赖于标记的训练数据。然而，收集和注释这些数据可能需要时间和精力。合成数据已经成为解决这个问题的可行方法，但是即使生成合成数据也经常需要人工分析员费力地手动注释。

现有的解决此问题的方法通常涉及使用生成对抗网络（GAN）创建合成图像。GAN由一个鉴别器和一个生成器组成，其中生成器学习生成能够欺骗鉴别器认为它们是真实的图像。虽然GAN在生成合成数据方面显示出了潜力，但它们仍然需要大量标记数据进行训练，限制了它们在有限注释数据的情况下的有效性。

亚马逊研究人员提出了一种名为“HandsOff”的创新解决方案，该解决方案在计算机视觉和模式识别会议（CVPR）上进行了演示。HandsOff通过利用一小组标记图像和GAN，消除了对合成图像数据的手动注释的需求。

HandsOff采用了一种称为GAN反演的新颖方法。研究人员不是修改GAN本身的参数，而是训练一个单独的GAN反演模型，将真实图像映射到GAN的潜在空间中的点。这使得他们能够基于标记图像创建一个小的点和标签数据集，可以用来训练第三个能够标记GAN潜在空间中的点的模型。

HandsOff的关键创新在于使用学习感知图像块相似性（LPIPS）损失来微调GAN反演模型。LPIPS通过比较计算机视觉模型（如目标检测器）在每个模型层的输出来衡量图像之间的相似性。通过优化GAN反演模型，以最小化真实潜在向量与输入图像的估计潜在向量之间的LPIPS差异，研究人员确保了即使对于不完全重构的想法，也能够保证标签的准确性。

HandsOff在语义分割、关键点检测和深度估计等重要的计算机视觉任务上展示了最先进的性能。值得注意的是，这是在少于50个现有标记图像的情况下实现的，突显了该框架在最小手动注释的情况下生成高质量合成数据的能力。

总之，HandsOff框架在计算机视觉和机器学习领域取得了令人振奋的突破。消除对合成数据大量手动注释的需求显著减少了训练ML模型所需的资源和时间。GAN反演与LPIPS优化的使用展示了该方法在确保生成数据的标签准确性方面的有效性。虽然文章没有详细探讨具体的定量指标，但实现最先进性能的声明是有希望的，值得进一步研究。

总体而言，HandsOff通过使高质量标记数据更易获取和更适用于各个领域和行业，有望推动计算机视觉研究和应用的发展。