文本到图像扩散模型通过使用数十亿个图像-文本对和有效的拓扑结构进行构建,展示了在以输入提供的文本合成高质量、逼真和多样化图片方面的惊人能力。它们还扩展到了几个应用领域,包括图像到图像的翻译、可控的创建和定制。这个领域最近的一个应用是能够通过使用模态特定的训练数据将其扩展到2D图片以外的其他复杂模态,而不改变扩散模型。本研究旨在解决使用预训练的文本到图像扩散模型的知识来挑战超出2D图片的高维视觉生成任务的挑战,同时利用模态特定的训练数据而不改变扩散模型。
他们从这样一个直觉开始,即许多复杂的视觉数据,包括电影和3D环境,可以被表示为具有特定模态一致性的图片集合。例如,一个3D场景是一组具有视图一致性的多视图帧,而电影是一组具有时间一致性的帧。不幸的是,因为他们的生成采样方法在利用图像扩散模型时没有考虑一致性,图像扩散模型没有能力保证合成或编辑一组图片的一致性。结果,当将图片扩散模型应用于这些复杂数据时,不考虑一致性,结果可能更连贯,如图1(分块裁剪)所示,可以清楚地看出照片被拼接在一起的地方。
类似的行为也在视频编辑中被观察到。因此,随后的研究提出了采用图片扩散模型来解决视频特定的时间一致性问题。在这里,他们引起了一个名为评分蒸馏采样(SDS)的新策略的注意,该策略利用文本到图像扩散模型的丰富生成先验来优化任何可微分的算子。通过压缩学习到的扩散密度评分,SDS将生成采样的挑战框架为一个优化问题。虽然其他研究人员已经证明了SDS在使用神经辐射场先验从文本生成3D对象方面的有效性,该先验通过密度建模假设在3D空间中具有一致的几何结构,但尚未研究它在一致合成其他模态的视觉方面。
在这项研究中,来自KAIST和Google Research的作者提出了一种简单而高效的技术,称为协同评分蒸馏(CSD),该技术扩展了文本到图像扩散模型在可靠的视觉合成方面的潜力。他们方法的关键有两个方面:首先,他们使用斯坦变分梯度下降(SVGD)通过让多个样本共享从扩散模型中获得的信息来推广SDS,以实现样本间的一致性。其次,他们提供了CSD-Edit,一种将CSD与最近开发的指令引导图片扩散模型Instruct-Pix2Pix结合起来的强大技术,用于一致的视觉编辑。
他们使用各种应用程序,包括全景图片编辑、视频编辑和3D场景重建,来展示他们的方法的适应性。他们展示了CSD-alter如何通过最大化多个图片补丁来改变具有空间一致性的全景图像。此外,与之前的方法相比,他们的方法在指令准确性和源-目标图像一致性之间取得了更好的平衡。在视频编辑的实验中,CSD-Edit通过优化多个帧达到时间一致性,从而实现了时间帧一致的视频编辑。他们还使用CSD-Edit生成和编辑3D场景,促进了各种视点的统一性。