在过去几年中，新兴的AI生成模型的性能、效率和生成能力取得了快速进展，这些模型利用了广泛的数据集和2D扩散生成实践。如今，生成AI模型已经非常能够生成不同形式的2D和在一定程度上的3D媒体内容，包括文本、图像、视频、GIF等。

本文将介绍Zero123++框架，这是一个以图像为条件的扩散生成AI模型，旨在使用单视图输入生成三维一致的多视图图像。为了最大化从预先训练的生成模型获得的优势，Zero123++框架实施了许多训练和调节方案，以减少从现成扩散图像模型进行微调所需要的工作量。我们将深入探讨Zero123++框架的架构、工作原理以及结果，并分析其生成质量非常高的一致多视图图像的能力。所以，让我们开始吧。

Zero123和Zero123++：简介

Zero123++框架是一个以图像为条件的扩散生成AI模型，旨在使用单视图输入生成三维一致的多视图图像。Zero123++框架是Zero123或Zero-1-to-3框架的延续，它利用了零样本新视图图像合成技术，开创了开源单图像到三维转换领域。尽管Zero123++框架表现出有希望的性能，但由于生成的图像存在明显的几何不一致性，三维场景与多视图图像之间的差距仍然存在。

Zero-1-to-3框架为其他几个框架奠定了基础，包括SyncDreamer、One-2-3-45、Consistent123等，这些框架在Zero123框架上添加了额外的层，以在生成三维图像时获得更一致的结果。其他框架如ProlificDreamer、DreamFusion、DreamGaussian等采用基于优化的方法，通过从多个不一致的模型中提取三维图像来获得结果。虽然这些技术是有效的，并且能够生成令人满意的三维图像，但通过实施能够一致生成多视图图像的基础扩散模型，结果可能会得到改进。因此，Zero123++框架采用Zero-1 to-3，从稳定扩散中重新微调一个新的多视图基础扩散模型。

在zero-1-to-3框架中，每个新视图都是独立生成的，这种方法会导致生成的视图之间出现不一致，因为扩散模型具有抽样性质。为了解决这个问题，Zero123++框架采用了平铺布局方法，将对象的六个视图围绕在一个单一图像中，并确保了对象的多视图图像的联合分布的正确建模。

开发Zero-1-to-3框架的开发人员面临的另一个重大挑战是它没有充分利用Stable Diffusion提供的能力，导致低效和增加的成本。Zero-1-to-3框架无法最大程度地利用Stable Diffusion提供的能力的主要原因有两个：

在进行图像条件训练时，Zero-1-to-3框架没有有效地结合Stable Diffusion提供的局部或全局调节机制。
在训练过程中，Zero-1-to-3框架使用了降低分辨率的方法，即输出分辨率低于训练分辨率，这可能会降低Stable Diffusion模型的图像生成质量。

为了解决这些问题，Zero123++框架实施了一系列调节技术，以最大化Stable Diffusion提供的资源利用，并保持Stable Diffusion模型的图像生成质量。

改进调节和一致性

为了改进图像调节和多视图图像一致性，Zero123++框架实施了不同的技术，主要目标是重新使用预先训练的Stable Diffusion模型中的先前技术。

多视图生成

生成一致的多角度图像的不可或缺的质量在于正确建模多个图像的联合分布。在Zero-1-to-3框架中，多视图图像之间的相关性被忽略，因为对于每个图像，该框架独立和分开地建模条件边缘分布。然而，在Zero123++框架中，开发人员选择了平铺布局方法，将6个图像平铺到一个单一的帧/图像中以进行一致的多视角生成，该过程在下图中展示。

此外，已经注意到在训练模型的相机姿态时，物体方向往往会消除歧义，并且为了防止这种歧义，Zero-1-to-3框架在训练时使用了输入的仰角和相对方位角对相机姿态进行训练。为了实现这种方法，需要知道输入视图的仰角，然后用它来确定新的输入视图之间的相对姿态。为了了解这个仰角，框架通常会添加一个仰角估计模块，但这种方法通常会在流水线中增加额外的误差。

噪声计划

缩放线性计划是稳定扩散的原始噪声计划，主要关注局部细节。但正如下图所示，它的SNR（信噪比）较低的步骤很少。

这些信噪比较低的步骤发生在去噪阶段的早期阶段，这是确定全局低频结构所必不可少的阶段。减少去噪阶段的步骤数，无论是在干扰还是训练过程中，通常会导致更大的结构变化。虽然这种设置对于单图像生成是理想的，但它限制了该框架确保不同视图之间的全局一致性的能力。为了克服这个障碍，Zero123++框架在稳定扩散2 v-prediction框架上微调了一个LoRA模型以执行一个玩具任务，下面是结果的示例。

Zero123++：一幅图像到一致多视图扩散基模型四海第3张

使用缩放线性噪声计划时，LoRA模型不会过拟合，只会轻微地去噪图像。相反，当使用线性噪声计划时，LoRA框架会生成一张空白图像，而不管输入提示是什么，从而说明噪声计划对该框架适应新要求的能力的影响。

用于局部条件的缩放参考注意力

在Zero-1-to-3框架中，单视图输入或条件图像在特征维度上与噪声输入连接以进行图像条件化。这种连接导致目标图像和输入之间的像素对应不正确。为了提供正确的局部条件输入，Zero123++框架使用了缩放参考注意力，该方法在额外的参考图像上运行去噪UNet模型，然后在模型输入经过去噪时，将值矩阵和自注意力键从参考图像附加到相应的注意力层中，下图展示了该过程。

Zero123++：一幅图像到一致多视图扩散基模型四海第4张

参考注意力方法能够引导扩散模型生成具有与参考图像相似的纹理和语义内容的图像，而无需进行微调。通过微调，参考注意力方法在缩放后能够提供更佳的结果。

Zero123++：一幅图像到一致多视图扩散基模型四海第5张

全局条件：FlexDiffuse

在原始的稳定扩散方法中，文本嵌入是全局嵌入的唯一来源，该方法使用CLIP框架作为文本编码器来在文本嵌入和模型潜变量之间进行交叉审查。结果，开发人员可以利用文本空间和所得到的CLIP图像之间的对齐来用于全局图像条件化。

Zero123++框架提出使用可训练的线性引导机制的变体，将全局图像调节与框架相结合，只需要最小程度的微调，并且结果在下面的图像中得到了证明。正如可以看到的那样，如果没有全局图像调节，框架生成的内容在与输入图像对应的可见区域是令人满意的。然而，对于未知区域，框架生成的图像质量明显下降，这主要是因为模型无法推断出对象的全局语义。

Zero123++：一幅图像到一致多视图扩散基模型四海第6张

模型架构

Zero123++框架基于Stable Diffusion 2v-model进行训练，使用了文章中提到的不同方法和技术。Zero123++框架在Objaverse数据集上进行了预训练，该数据集采用随机的HDRI照明。该框架还采用了Stable Diffusion Image Variations框架中使用的阶段性训练计划，以进一步减少所需的微调量，并尽量保留Prior Stable Diffusion中的内容。

Zero123++框架的工作原理或架构可以进一步分为顺序步骤或阶段。第一阶段是框架对交叉注意力层的KV矩阵以及稳定扩散的自注意层进行微调，采用AdamW作为优化器，1000个预热步骤和最大为7×10-5的余弦学习率计划。在第二阶段，框架采用高度保守的恒定学习率，有2000个预热步骤，并采用Min-SNR方法来提高训练效率。

Zero123++：结果与性能比较

定性性能

为了评估Zero123++框架在生成质量方面的性能，将其与SyncDreamer和Zero-1-to-3-XL两个最先进的内容生成框架进行比较。将这些框架与具有不同范围的四个输入图像进行比较。第一张图像是直接来自Objaverse数据集的电动玩具猫，它在对象的后部具有较大的不确定性。第二张图像是灭火器的图像，第三张图像是SDXL模型生成的一只坐在火箭上的狗的图像。最后一张图像是一个动漫插图。使用One-2-3-4-5框架的高程估计方法实现所需的高度步骤，并使用SAM框架进行背景去除。可以看到，Zero123++框架始终生成高质量的多视图图像，并且能够很好地推广到域外的2D插图和AI生成的图像。

Zero123++：一幅图像到一致多视图扩散基模型四海第7张 Zero123++：一幅图像到一致多视图扩散基模型四海第8张

定量分析

为了定量比较Zero123++框架与最先进的Zero-1-to-3和Zero-1to-3 XL框架，开发者通过在Objaverse数据集的验证集数据上评估这些模型的学习感知图像块相似度(LPIPS)得分。为了评估模型在多视图图像生成方面的性能，开发者分别对参考的地面真实图像和生成的图像进行平铺，并计算学习感知图像块相似度(LPIPS)得分。如下所示，可以清楚地看到，Zero123++框架在验证集上取得了最佳性能。

Zero123++：一幅图像到一致多视图扩散基模型四海第9张

文本到多视图评估

为了评估Zero123++框架在文本到多视图内容生成方面的能力，开发者首先使用SDXL框架使用文本提示生成图像，然后对生成的图像使用Zero123++框架。如下图所示，与不能保证一致的多视图生成的Zero-1-to-3框架相比，Zero123++框架通过实现文本到图像到多视图的方法或流程，生成一致、真实和高度详细的多视图图像。

Zero123++：一幅图像到一致多视图扩散基模型四海第10张

Zero123++ Depth ControlNet

除了基本的Zero123++框架外，开发人员还发布了深度控制版本的Zero123++ Depth ControlNet，这是使用ControlNet架构构建的原始框架的深度控制版本。规范化线性图像与随后的RGB图像一起呈现，并使用深度感知训练ControlNet框架来控制Zero123++框架的几何形状。

结论

本文介绍了Zero123++，这是一个以图像条件为基础的扩散生成AI模型，旨在使用单个视图输入生成3D一致的多视图图像。为了最大化从先前预训练的生成模型中获得的优势，Zero123++框架实施了许多训练和条件方案，以最小化从现成的扩散图像模型微调所需的工作量。我们还讨论了Zero123++框架实施的不同方法和增强功能，帮助它实现了与当前最先进框架相当甚至超越其结果的效果。

然而，尽管Zero123++框架具有效率高且能够持续生成高质量的多视图图像的能力，但仍然有改进的空间。我们可以进行进一步研究的潜在领域包括：

两阶段细化模型，可以解决Zero123++无法满足全局一致性要求的问题。
额外的放大以进一步提高Zero123++生成的图像质量。