Press "Enter" to skip to content

“认识罗丹:一种新颖的人工智能(AI)框架,可以从各种输入源生成3D数字化身”

“认识罗丹:一种新颖的人工智能(AI)框架,可以从各种输入源生成3D数字化身” 四海 第1张“认识罗丹:一种新颖的人工智能(AI)框架,可以从各种输入源生成3D数字化身” 四海 第2张

生成模型正在成为计算机科学中许多具有挑战性任务的事实解决方案。它们代表了分析和合成视觉数据最有前景的方法之一。稳定扩散是目前最知名的生成模型,可以从复杂的输入提示生成美丽而逼真的图像。该架构基于扩散模型(DMs),已经展现出图像和视频的惊人生成能力。扩散和生成模型的快速发展正在推动二维内容创作的革命。这个口号非常简单:“如果你能描述它,你就能可视化它。”或者更好的说,“如果你能描述它,模型就能为你绘制出来。”确实令人难以置信,生成模型的能力。

虽然二维内容已被证明是对DMs的一种压力测试,但三维内容由于包括但不限于额外的维度而带来了几个挑战。生成与2D内容相同质量的三维内容,例如头像,是一项艰巨的任务,由于内存和处理成本可能会限制为高质量头像生成所需的丰富细节。

随着技术推动数字头像在电影、游戏、元宇宙和3D行业中的使用,允许任何人创建数字头像可能是有益的。这是推动该工作开发的动力。

作者提出了Roll-out扩散网络(Rodin)来解决创建数字头像的问题。下图给出了该模型的概述。

“认识罗丹:一种新颖的人工智能(AI)框架,可以从各种输入源生成3D数字化身” 四海 第3张

“认识罗丹:一种新颖的人工智能(AI)框架,可以从各种输入源生成3D数字化身” 四海 第4张

模型的输入可以是图像、随机噪声或所需头像的文本描述。然后从给定的输入中派生潜在向量z,并在扩散过程中使用它。扩散过程包括多个噪声去噪步骤。首先,随机噪声被添加到起始状态或图像中,并进行去噪以获得更清晰的图像。

这里的不同之处在于所需内容的三维性质。扩散过程与通常运行一样,但扩散模型生成头像的粗略几何形状,随后使用扩散上采样器进行细节合成。

计算和内存效率是该工作的目标之一。为了实现这一目标,作者利用了神经辐射场的三平面(三个轴)表示,与体素网格相比,它具有更小的内存占用,而不会损失表达能力。

然后,训练另一个扩散模型,将产生的三平面表示上采样以匹配所需分辨率。最后,利用由4个全连接层组成的轻量级MLP解码器生成RGB体积图像。

下面报告了一些结果。

“认识罗丹:一种新颖的人工智能(AI)框架,可以从各种输入源生成3D数字化身” 四海 第5张

与提到的最先进方法相比,Rodin提供了最清晰的数字头像。对于该模型,在共享样本中没有可见的伪影,与其他技术相反。

这是Rodin的摘要,一个能够轻松从各种输入源生成3D数字化身的新颖框架。如果您有兴趣,可以在下面的链接中找到更多信息。

Leave a Reply

Your email address will not be published. Required fields are marked *