Press "Enter" to skip to content

加州大学圣地亚哥分校和Meta AI研究人员引入MonoNeRF:一种自动编码器架构,通过相机编码器和深度编码器将视频分解为相机运动和深度图

加州大学圣地亚哥分校和Meta AI研究人员引入MonoNeRF:一种自动编码器架构,通过相机编码器和深度编码器将视频分解为相机运动和深度图 四海 第1张加州大学圣地亚哥分校和Meta AI研究人员引入MonoNeRF:一种自动编码器架构,通过相机编码器和深度编码器将视频分解为相机运动和深度图 四海 第2张

加利福尼亚大学圣地亚哥分校(UC San Diego)和 Meta AI 的研究人员提出了 MonoNeRF。这种新颖的方法可以从单目视频中学习可推广的神经辐射场(NeRF),而无需依赖于真实相机姿态。

该工作强调了 NeRF 在各种应用中展现出的有希望的结果,包括视图合成、场景和物体重建、语义理解和机器人技术。然而,构建 NeRF 需要精确的相机姿态注释,并且限制于单个场景,导致训练耗时长且适用性有限。

针对这些挑战,最近的研究工作集中于在包含多个场景的数据集上进行训练,然后在各个场景上进行微调,以学习可推广的 NeRF。这种策略可以使用较少的视图输入进行重建和视图合成,但仍需要在训练过程中提供相机姿态信息。虽然一些研究人员尝试了在没有相机姿态的情况下训练 NeRF,但这些方法仍然局限于特定场景,并且由于自监督校准的复杂性而难以在不同场景之间进行泛化。

MonoNeRF 通过在捕捉静态场景中的相机运动的单目视频上进行训练,有效消除了对真实相机姿态的需求。研究人员关键观察到,真实世界的视频通常呈现缓慢的相机变化而不是多样的视角,他们利用了这种时间连续性来构建他们提出的框架。该方法涉及一个基于自动编码器的模型,该模型在大规模的真实世界视频数据集上进行训练。具体而言,深度编码器估计每个帧的单目深度,而相机姿态编码器确定连续帧之间的相对相机姿态。然后,利用这些解耦表示来构建每个输入帧的 NeRF 表示,然后根据估计的相机姿态对另一个输入帧进行解码。

模型使用重建损失进行训练,以确保渲染和输入帧之间的一致性。然而,仅依赖重建损失可能会导致一个平凡的解决方案,因为估计的单目深度、相机姿态和 NeRF 表示可能不在同一个尺度上。研究人员提出了一种新颖的尺度校准方法来解决在训练过程中对齐这三种表示的挑战。他们提出的框架的关键优势有两个方面:它消除了 3D 相机姿态注释的需求,并在大规模视频数据集上展现了有效的泛化性,从而提高了可迁移性。

在测试时,学习到的表示可以应用于各种下游任务,例如从单个 RGB 图像中估计单目深度、相机姿态估计和单图像新视图合成。研究人员主要在室内场景上进行实验,并展示了他们方法的有效性。他们的方法在 Scannet 测试集上显著改进了自监督深度估计,并在 NYU Depth V2 上展现了卓越的泛化性能。此外,MonoNeRF 在相机姿态估计上始终优于使用 RealEstate10K 数据集的先前方法。对于新视图合成,提出的 MonoNeRF 方法超越了无相机真值学习的方法,并优于依赖真实相机的最近方法。

总之,研究人员提出了 MonoNeRF 作为一种从单目视频中学习可推广 NeRF 的新颖实用解决方案,而无需真实相机姿态。他们的方法解决了以前方法的局限性,并在与深度估计、相机姿态估计和新视图合成相关的各种任务上展现出卓越的性能,特别是在大规模数据集上。

Leave a Reply

Your email address will not be published. Required fields are marked *