Press "Enter" to skip to content

“遇见超人类:一种新颖的AI框架,用于模拟具有潜在结构扩散的超真实人类生成”

从用户定义的条件(如文本和姿势)生成超逼真的人类图像对于各种应用非常有意义,包括图像动画和虚拟试穿。为了探索可控人类图像生成的任务,已经做出了许多努力。早期的方法要么依赖于重建方式的变分自动编码器(VAEs),要么通过生成对抗网络(GANs)提高了逼真度。尽管某些方法可以创建高质量的图像,但不稳定的训练和有限的模型容量等挑战限制了它们在小数据集和低多样性的情况下。

最新出现的扩散模型(DMs)引入了一种逼真合成的新范例,成为生成智能领域中的主流架构。然而,像稳定扩散和DALL·E 2这样的例子文本到图像(T2I)模型仍然难以创建具有一致解剖结构的人类图像,如手臂、腿和自然姿势。主要挑战在于人体形态的非刚性变形,需要难以仅通过文本提示来描述的结构信息。

最近的研究,如ControlNet和T2I-Adapter,尝试通过引入可学习的分支来调节预训练的DMs(如稳定扩散)以实现结构控制的图像生成,以插拔的方式进行。然而,这些方法存在主支和辅助支之间的特征差异,导致控制信号(如姿势映射)和生成的图像之间的不一致性。HumanSD提出通过通道级串联直接将身体骨架输入扩散U-Net以解决这个问题。然而,该方法只能生成有限多样性的艺术风格图像。此外,人类内容只通过姿势控制合成,忽略了深度图和表面法线图等其他重要的结构信息。

本文报道的工作提出了一个统一框架HyperHuman,用于生成高逼真度和多样化布局的现实世界人类图像。其概述如下图所示。

关键洞察是识别人类图像在多个粒度上固有的结构性质,从粗级身体骨架到细粒度的空间几何。在一个模型中捕捉明确外观和潜在结构之间的这种相关性对于生成连贯和自然的人类图像至关重要。该论文建立了一个大规模的以人为中心的数据集HumanVerse,包含了3.4亿个现实世界的人类图像和全面的注释。基于这个数据集,设计了两个模块用于高逼真度可控人类图像生成:潜在结构扩散模型和结构引导细化器。前者增强了预训练扩散主干,同时去噪RGB、深度和法线方面,确保去噪纹理和结构之间的空间对准。

由于这种精心设计,图像外观、空间关系和几何建模都在一个统一的网络中进行协同。每个分支互补,融入了结构意识和纹理丰富性。增强的噪声计划消除了低频信息泄漏,确保局部区域的深度和表面法线值的均匀性。每个分支使用相同的时间步长增强学习并促进特征融合。通过空间对准的结构图,结构引导细化器为详细、高分辨率的图像生成合成了预测条件。此外,设计了强大的调节方案,以减轻两阶段生成管线中的误差积累的影响。

下图报告了与最先进技术的比较。

每行的前4×4网格包含输入骨骼,共同去噪的法线、深度和粗糙RGB(512×512),这些都是通过HyperHuman计算得出的。
这就是HyperHuman的概述,它是一个新颖的人工智能框架,用于生成具有高逼真度和多样化布局的真实环境中的人类图像。如果您有兴趣并且想要了解更多信息,请随意参考下面引用的链接。
Leave a Reply

Your email address will not be published. Required fields are marked *