牛津研究人员提出Farm3D：一种能够通过提炼2D扩散来学习关节3D动物的AI框架，用于实时应用如视频游戏

牛津研究人员提出Farm3D：一种能够通过提炼2D扩散来学习关节3D动物的AI框架，用于实时应用如视频游戏四海第1张

生成式人工智能的惊人增长引发了图片生成方面的令人着迷的进展，利用DALL-E、Imagen和Stable Diffusion等技术，可以根据文本提示创建出色的图像。这一成就可能不仅局限于2D数据。最近DreamFusion展示了文本到图像生成器可以用于创建高质量的3D模型，尽管生成器缺乏3D训练，但有足够的数据来重建3D形状。本文阐述了如何通过文本到图像生成器获得更多，并获得多个3D物体类型的关节模型。

也就是说，他们不是试图创建单个3D资产（DreamFusion），而是希望创建整个类别的关节3D物体的统计模型（如牛、羊和马），该模型可以用于从单个图像（无论是真实的还是数字化的）创建可用于增强现实/虚拟现实、游戏和内容创作的动画化的3D资产。他们通过训练一个可以根据物体的单张照片预测关节3D模型的网络来解决这个问题。为了引入这样的重建网络，先前的工作一直依赖于真实数据。然而，他们提出使用使用2D扩散模型（如Stable Diffusion）生成的合成数据。

牛津大学视觉几何组的研究人员提出了Farm3D，它是DreamFusion、RealFusion和Make-a-video-3D等3D生成器的一个补充，这些生成器可以通过测试时间优化从文本或图像开始创建单个的3D静态或动态资产，需要数小时。这提供了几个优点。首先，2D图像生成器倾向于生成准确和完好的物体类别示例，从而隐式地筛选训练数据并简化学习过程。其次，通过2D生成器隐含地提供了每个给定物体实例的虚拟视图，进一步提供了对理解的澄清。第三，它通过消除收集（可能还需要审查）真实数据的要求，增加了方法的适应性。

在测试时，他们的网络以前馈方式从单张图像中进行重建，仅需几秒钟即可生成可操作的关节3D模型（例如，可以进行动画化、重新照明），而不是固定的3D或4D工件。他们的方法适用于合成和分析，因为重建网络仅在虚拟输入上进行训练，但能够推广到实际照片。可以将该方法应用于动物行为的研究和保护。Farm3D基于两个重要的技术创新。首先，他们展示了如何通过快速工程使Stable Diffusion产生大量通常干净的物体类别图片，以学习关节3D模型。其次，他们展示了如何将得分蒸馏采样（SDS）损失扩展到合成多视图监督，以训练照片几何自编码器，即MagicPony。为了创建同一物体的新人工视图，照片几何自编码器将物体分成多个方面，这些方面有助于图像形成（例如物体的关节形状、外观、相机视点和照明）。

这些合成视图被输入到SDS损失中，以获得渐变更新和反向传播到自编码器的可学习参数。他们对Farm3D进行了基于3D生成和修复能力的定性评估。由于Farm3D能够进行重建和创建，因此可以在语义关键点传输等分析任务上进行定量评估。尽管该模型不使用任何真实图像进行训练，从而节省了耗时的数据收集和筛选过程，但他们展示了与各种基准相当甚至更好的性能。