基于草图的图像到图像翻译：利用生成对抗网络将抽象草图转化为逼真图像

基于草图的图像到图像翻译：利用生成对抗网络将抽象草图转化为逼真图像四海第1张

有些人擅长素描，而其他人可能在其他任务上有天赋。当给出一张鞋子的图片时，人们可以用简单的线条来代表照片，但素描的质量可能会有所不同。相反，人类具有根据甚至是抽象的绘画进行可视化的内在能力，这是在数百万年的进化过程中培养出来的技能。

随着人工智能和生成模型的出现，从抽象素描生成逼真图像的问题属于图像到图像翻译文献的更广泛背景。这个问题在之前的作品中得到了探索，如pix2pix、CycleGAN、MUNIT和BicycleGAN。其中一些先前的方法，包括针对素描的变体，声称通过生成照片的边缘图来解决类似的问题，这些边缘图突出了素描中物体的重要轮廓和外形。这些边缘图是详细的图片，这意味着这些模型不考虑抽象的素描，而是专注于精细的素描。

本文介绍的论文侧重于基于素描的图像到图像翻译，但与引用的方法有一个重要的区别。它专注于直接从抽象人类素描生成图像，而不是使用照片边缘图。根据作者的说法，使用边缘图训练的模型生成了具有边缘图的高质量逼真照片，但对业余人类素描生成了不现实的结果。这是因为所有先前的方法在翻译过程中都假设像素对齐。因此，生成的结果准确反映了个体的绘画技巧（或其缺乏），导致非艺术家的结果不佳。

因此，非训练有素的艺术家永远不会在这些模型中获得令人满意的结果。然而，本文介绍的新型人工智能方法旨在使素描到照片生成技术民主化。

该技术的架构如下图所示。

基于草图的图像到图像翻译：利用生成对抗网络将抽象草图转化为逼真图像四海第3张 — https://subhadeepkoley.github.io/PictureThatSketch/

这种技术能够从素描中生成逼真的图像，而不受素描质量的限制。作者们发现，先前方法中呈现的像素对齐伪影是由于将编码器-解码器架构端到端进行训练所导致的。这导致生成的结果严格遵循输入素描（边缘图）中定义的边界，限制了结果的质量。为了解决这个问题，他们引入了一种解耦的编码器-解码器训练方法。研究人员首先使用StyleGAN仅对照片进行预训练解码器，然后冻结它。这确保生成的结果具有逼真的质量，并从StyleGAN的流形中进行采样。

另一个重要的方面是抽象素描与逼真照片之间的差距。为了解决这个问题，他们训练了一个编码器，将抽象素描表示映射到StyleGAN的潜在空间，而不是通常的实际照片。他们使用地面实况素描-照片对，并对输入素描和生成的照片之间施加了一种新颖的细粒度辨别损失，以确保准确的映射。此外，他们引入了一种局部感知的增强策略来处理素描的抽象性质。这涉及渲染完整素描的部分版本，并根据部分信息的程度适当地分配潜在向量。

在训练他们的生成模型后，研究人员观察到了几个有趣的特性。他们发现，通过调整预测的潜在向量数量和添加高斯噪声，可以轻松地控制生成照片中的抽象级别。由于局部感知的素描增强策略，该模型还对噪声和部分素描表现出鲁棒性。此外，该模型对输入素描的不同抽象级别表现出良好的泛化能力。

下面报告了所提出方法和最先进技术的一系列结果。

基于草图的图像到图像翻译：利用生成对抗网络将抽象草图转化为逼真图像四海第4张 — https://subhadeepkoley.github.io/PictureThatSketch/

这是一种新颖的AI生成图像到图像模型的概述，可以从抽象的人类草图合成逼真的图像。如果您对此工作感兴趣并希望了解更多信息，您可以通过点击下面的链接找到更多信息。