苹果研究人员提出了一种从姿势图像生成详细的3D重建的端到端网络

苹果研究人员提出了一种从姿势图像生成详细的3D重建的端到端网络四海第1张

你玩过GTA-5吗？人们对游戏中的3D图形赞叹不已。与平面上的2D图形不同，3D图形模拟深度和透视，使得视觉更加真实和沉浸。这些图形在各个领域广泛应用，包括视频游戏、电影制作、建筑可视化、医学成像、虚拟现实等等。

传统的创建3D模型的方法是通过估计输入图像的深度图，然后将其融合以创建3D模型。苹果和加州大学圣巴巴拉分校的研究人员创建了一个直接推断场景级3D几何的方法，使用了深度神经网络，不涉及传统的测试时间优化。

传统方法在深度图不匹配的区域（如透明或低纹理表面）导致几何缺失或伪影。研究人员的方法将图像映射到体素网格上，并使用3D卷积神经网络直接预测场景的截断有符号距离函数（TSDF）。

卷积神经网络（CNN）是一种专门设计用于处理和分析视觉数据（尤其是图像和视频）的人工神经网络。使用这种技术的优势在于CNN可以学习和生成平滑、一致的表面，填补低纹理或透明区域的空白。

研究人员在训练期间使用三线性插值对地面真实TSDF进行采样，以与模型的体素网格对齐。这种三线性插值采样会在训练过程中对细节添加随机噪声。为了克服这个问题，他们只考虑了在地面真实TSDF完全已知的确切点处的有监督预测，并且这种方法改善了结果10%。

体素是体素像素的缩写。它代表网格内的三维空间中的一个点，类似于像素代表二维图像中的一个点。现有的体素大小为4cm或更大，这不足以解决自然图像中可见的几何细节，并且增加体素分辨率是昂贵的。他们通过使用CNN网格特征，直接将图像特征投影到查询点来解决这个问题。

他们需要使用密集的反投影来从每个体素中的每个输入图像中进行采样。然而，这会导致反投影体积模糊，他们通过使用初始的多视角立体深度估计来解决这个问题，进一步增强了特征体积。

研究人员声称他们的方法是使网络学习细节并允许自由选择输出分辨率的关键，而无需额外的训练或3D卷积层。