Press "Enter" to skip to content

牛津研究人员提出Farm3D:一种能够通过提炼2D扩散来学习关节3D动物的AI框架,用于实时应用如视频游戏

牛津研究人员提出Farm3D:一种能够通过提炼2D扩散来学习关节3D动物的AI框架,用于实时应用如视频游戏 四海 第1张牛津研究人员提出Farm3D:一种能够通过提炼2D扩散来学习关节3D动物的AI框架,用于实时应用如视频游戏 四海 第2张

生成式人工智能的惊人增长引发了图片生成方面的令人着迷的进展,利用DALL-E、Imagen和Stable Diffusion等技术,可以根据文本提示创建出色的图像。这一成就可能不仅局限于2D数据。最近DreamFusion展示了文本到图像生成器可以用于创建高质量的3D模型,尽管生成器缺乏3D训练,但有足够的数据来重建3D形状。本文阐述了如何通过文本到图像生成器获得更多,并获得多个3D物体类型的关节模型。

也就是说,他们不是试图创建单个3D资产(DreamFusion),而是希望创建整个类别的关节3D物体的统计模型(如牛、羊和马),该模型可以用于从单个图像(无论是真实的还是数字化的)创建可用于增强现实/虚拟现实、游戏和内容创作的动画化的3D资产。他们通过训练一个可以根据物体的单张照片预测关节3D模型的网络来解决这个问题。为了引入这样的重建网络,先前的工作一直依赖于真实数据。然而,他们提出使用使用2D扩散模型(如Stable Diffusion)生成的合成数据。

牛津大学视觉几何组的研究人员提出了Farm3D,它是DreamFusion、RealFusion和Make-a-video-3D等3D生成器的一个补充,这些生成器可以通过测试时间优化从文本或图像开始创建单个的3D静态或动态资产,需要数小时。这提供了几个优点。首先,2D图像生成器倾向于生成准确和完好的物体类别示例,从而隐式地筛选训练数据并简化学习过程。其次,通过2D生成器隐含地提供了每个给定物体实例的虚拟视图,进一步提供了对理解的澄清。第三,它通过消除收集(可能还需要审查)真实数据的要求,增加了方法的适应性。

在测试时,他们的网络以前馈方式从单张图像中进行重建,仅需几秒钟即可生成可操作的关节3D模型(例如,可以进行动画化、重新照明),而不是固定的3D或4D工件。他们的方法适用于合成和分析,因为重建网络仅在虚拟输入上进行训练,但能够推广到实际照片。可以将该方法应用于动物行为的研究和保护。Farm3D基于两个重要的技术创新。首先,他们展示了如何通过快速工程使Stable Diffusion产生大量通常干净的物体类别图片,以学习关节3D模型。其次,他们展示了如何将得分蒸馏采样(SDS)损失扩展到合成多视图监督,以训练照片几何自编码器,即MagicPony。为了创建同一物体的新人工视图,照片几何自编码器将物体分成多个方面,这些方面有助于图像形成(例如物体的关节形状、外观、相机视点和照明)。

这些合成视图被输入到SDS损失中,以获得渐变更新和反向传播到自编码器的可学习参数。他们对Farm3D进行了基于3D生成和修复能力的定性评估。由于Farm3D能够进行重建和创建,因此可以在语义关键点传输等分析任务上进行定量评估。尽管该模型不使用任何真实图像进行训练,从而节省了耗时的数据收集和筛选过程,但他们展示了与各种基准相当甚至更好的性能。

Leave a Reply

Your email address will not be published. Required fields are marked *