用MVDream革命性地改变3D模型生成

此文章最初发布在louisbouchard.ai上，但我博客上提前2天就可以阅读到！

观看视频：

我非常兴奋地与您分享这个新的AI模型！我们已经看到了许多生成文本的新方法，生成图像的质量也越来越好。然后，我们还看到了其他一些令人惊叹的初步工作，可以通过文本生成视频甚至3D模型。想象一下当您只有一句话时，完成这样一个任务的复杂性，您需要生成一个在现实世界中看起来像一个物体，并具有所有细节的东西。嗯，这是一个新的工作，它不仅仅是一个初步的尝试；它是从仅仅的文本生成3D模型中向前迈出的一大步：MVDream！

使用文本生成baby yoda风格的Mormookiee的结果对比（MVDream在最右边）。图片来自论文。

正如您所见，MVDream似乎能够理解物理学。与以前的方法相比，它能够理解问题。它知道视图应该是逼真的，只有两只耳朵，而不是任何可能的视图都有两只耳朵。它仅仅通过这简单的一行文字就能够创建出非常高质量的3D模型！这是多么酷啊！但更酷的是它是如何工作的…所以让我们直接深入了解吧！

如果您观察一个3D模型，最大的挑战在于它们需要为您从不同视角观看时生成逼真且高质量的图像，并且这些视角之间必须在空间上保持一致，不能像我们之前看到的四只耳朵的Yoda或多个面部的主题那样。因为在图像数据集中，我们很少有人从后面看的情况，所以模型想要以任何代价看到人脸。生成3D模型的主要方法之一是模拟从相机的视角来生成应该从此视点看到的内容。这被称为2D放大，因为我们生成常规图像来将它们组合成完整的3D场景。然后，我们从物体周围生成所有可能的视图。这就是为什么我们习惯于看到这些奇怪的伪影，因为模型只是试图一次生成一个视图，并且无法充分理解3D空间中的整体对象。嗯，MVDream在这个方向上迈出了一大步。他们…