S-Lab和NTU研究人员提出了Scenimefy：一种新颖的半监督图像到图像翻译框架，用于从现实世界图像生成高质量动漫场景渲染，填补了自动化方面的差距

S-Lab和NTU研究人员提出了Scenimefy：一种新颖的半监督图像到图像翻译框架，用于从现实世界图像生成高质量动漫场景渲染，填补了自动化方面的差距四海第1张

动漫场景需要大量的创造才能和时间来创作。因此，基于学习的自动场景风格化方法的发展具有不可否认的实际和经济意义。由于生成对抗网络（GANs）的最新进展，自动风格化已经显著改善，但大部分研究仍主要集中在人脸上。尽管其巨大的研究价值，但从复杂的现实世界场景照片中创建高质量的动漫场景的过程仍然需要研究。由于几个因素，将现实世界的场景照片转换为动漫风格需要大量的工作。

1）场景的构图：图1说明了场景中前景和背景部分之间的层次关系，这些场景通常由几个以复杂方式连接的物品组成。

2）动漫的特点：图1显示了如何在草地、树木和云等自然环境中使用预设计的笔触来创建独特的纹理和精确的细节，这些纹理的有机和手绘特性使它们比之前的实验中的清晰边缘和均匀色块更具挑战性。

3）数据短缺和领域差距：高质量的动漫场景数据集对于弥合现实和动漫场景之间的差距至关重要。由于人脸和其他前景物品的大量存在，现有数据集质量较低，其美学与背景景观不同。

S-Lab和NTU研究人员提出了Scenimefy：一种新颖的半监督图像到图像翻译框架，用于从现实世界图像生成高质量动漫场景渲染，填补了自动化方面的差距四海第3张 — **图1：**动漫场景特点。在新海诚的2011年电影《追逐失落的声音的孩子们》中，可以看到草地和石头（前景）以及树木和云（背景）的手绘笔触，与清晰的边缘和平面表面形成鲜明对比。

无监督的图像转换方法是一种用于复杂场景风格化的流行方法，不需要配对的训练数据。尽管显示出有希望的结果，但现有的专注于动漫风格的技术在几个方面仍需改进。首先，复杂场景中缺乏像素级的相关性使得现有方法难以执行明显的纹理风格化同时保持语义含义，可能导致输出结果异常并包含明显的伪影。其次，某些方法无法产生动漫场景的精细细节。这是由于它们构建的动漫特定损失或预提取的表示，这些损失强制执行边缘和表面的平滑性。

为解决上述问题，南洋理工大学的S-Lab研究人员提出了Scenimefy，这是一种用于创建高质量动漫风格场景图片的独特的半监督图像转换流程。他们的主要建议是使用生成的伪配对数据将新的监督训练分支引入无监督框架，以解决无监督训练的缺点。他们利用StyleGAN的优势特性，通过对其进行微调，提供了真实和动漫之间的粗略配对数据或伪配对数据。

S-Lab和NTU研究人员提出了Scenimefy：一种新颖的半监督图像到图像翻译框架，用于从现实世界图像生成高质量动漫场景渲染，填补了自动化方面的差距四海第4张 — 图2显示了Scenimefy生成的动漫场景渲染。上排：翻译后的图片；下排：翻译结果。

他们提供了一种全新的语义约束微调方法，利用了CLIP和VGG等丰富的预训练模型先验知识，指导StyleGAN捕捉复杂场景细节并减少过拟合。为了过滤低质量的数据，他们还提供了一种基于分割的数据选择技术。通过使用伪配对数据和独特的基于补丁的对比风格损失，Scenimefy在两个领域之间创建了细节，并学习了有效的像素级对应关系。他们的半监督框架在场景风格化的忠实性和保真度以及无监督训练分支之间寻求了一种理想的平衡。

他们还收集了一组高质量的纯动漫场景数据集来辅助训练。他们进行了大量测试，展示了Scenimefy的有效性，超越了行业对感知质量和定量评估的基准。以下是他们的主要贡献概述：

• 他们提供了一个全新的、半监督的场景风格化框架，将实际照片转换为优质的动漫场景图像。他们的系统添加了独特的分块对比风格损失，以增强风格化和细节。

• 通过丰富的预训练先验指导，结合分割引导的数据选择方案，他们开发了一个新的语义约束的StyleGAN微调技术，产生了结构一致的伪配对数据，作为训练监督的基础。

• 他们收集了一组高分辨率的动漫场景，以辅助未来对场景风格化的研究。