Press "Enter" to skip to content

来自谷歌和康奈尔大学的研究人员推出DynIBaR:用人工智能彻底改变了动态场景重建

“`html
来自谷歌和康奈尔大学的研究人员推出DynIBaR:用人工智能彻底改变了动态场景重建 四海 第1张

一篇来自Google和康奈尔大学的新论文引入了DynIBaR,一种用于生成逼真的自由视点渲染的新方法。团队表示,这一切都源于复杂而动态场景的单个视频。

近年来,计算机视觉领域在利用神经辐射场(NeRFs)重建静态3D场景方面取得了令人难以置信的进展。尽管这些技术革新了我们创建现实主义的3D表示的能力,但将它们扩展到动态场景仍面临着重大挑战。

现在推出DynIBaR:神经动态基于图像渲染,这是谷歌和康奈尔大学研究人员在CVPR 2023上引入的一种创新的AI技术,为用标准手机摄像头捕捉动态场景提供了解决方案。

令人感兴趣的是,在真实环境中创建准确清晰的动态场景表示一直是计算机视觉中的一大挑战。现有方法,包括时空神经辐射场或动态NeRFs,在面对冗长的视频、复杂的物体运动和无规则的相机轨迹时往往难以应对。

这一限制限制了它们的实际应用性,特别是在使用像智能手机摄像头这样的日常工具捕捉动态场景时。DynIBaR通过利用用标准手机摄像头拍摄的单个视频生成极其逼真的自由视点渲染图像,将动态场景重建推上了一个新水平。

这一强大的技术提供了一系列视频效果,包括子弹时间效果(相机在场景周围移动时暂停时间)、视频稳定、景深调整和慢动作功能。

DynIBaR背后的一个关键创新是其在长时间动态影片、多样化场景、不可预测的相机移动以及快速而复杂的物体运动方面的可扩展性。通过利用由学习得到的基函数表示的运动轨迹场,该可扩展性实现了对跨多帧的复杂运动模式的建模。

为确保重建动态场景的时间连贯性,DynIBaR引入了一种在经过运动调整的射线空间内运作的新颖时间光度损失。这个损失函数改善了渲染视图的质量,使其更逼真和连贯。

此外,研究人员建议在基于图像的渲染的运动分割技术中结合一个贝叶斯学习框架。这种分割方法有效地将场景内的动态和静态成分分开,从而提高了渲染质量。

动态场景重建中的一个重大挑战在于神经网络的计算复杂性。多层感知器中的参数数量随着场景的复杂性和持续时间的增加而增加,使得在真实世界的视频上训练模型变得困难。

DynIBaR通过直接利用周围帧的像素数据构建新视图,消除了对过于庞大的多层感知器的需求。DynIBaR的基础是IBRNet,这是一种最初用于合成静态场景中视图的基于图像的渲染方法。

通过在这个基础上构建并引入创新技术,DynIBaR旨在推动动态场景重建的边界。

“`

Leave a Reply

Your email address will not be published. Required fields are marked *