Press "Enter" to skip to content

这篇来自韩国的人工智能(AI)论文提出了FFNeRV:一种使用帧间流图和多分辨率时间网格的新型逐帧视频表示方法

这篇来自韩国的人工智能(AI)论文提出了FFNeRV:一种使用帧间流图和多分辨率时间网格的新型逐帧视频表示方法 四海 第1张这篇来自韩国的人工智能(AI)论文提出了FFNeRV:一种使用帧间流图和多分辨率时间网格的新型逐帧视频表示方法 四海 第2张

最近,对于通过神经网络将坐标映射到其数量(如标量或向量)来表示信号的神经场的研究已经迅速增长。这引发了对利用这项技术处理各种信号(包括音频、图像、3D形状和视频)的兴趣增加。通用逼近定理和坐标编码技术为大脑场的准确信号表示提供了理论基础。最近的研究表明,它在数据压缩、生成模型、信号操作和基本信号表示方面具有适应性。

这篇来自韩国的人工智能(AI)论文提出了FFNeRV:一种使用帧间流图和多分辨率时间网格的新型逐帧视频表示方法 四海 第3张
图1显示了(a)所提出的流引导的逐帧表示的一般结构,(b)逐帧视频表示,(c)像素级视频表示(FFNeRV)

最近,对于通过神经网络将坐标映射到其数量(如标量或向量)来表示信号的神经场的研究已经迅速增长。这引发了对利用这项技术处理各种信号(包括音频、图像、3D形状和视频)的兴趣增加。通用逼近定理和坐标编码技术为大脑场的准确信号表示提供了理论基础。最近的研究表明,它在数据压缩、生成模型、信号操作和基本信号表示方面具有适应性。

每个时间坐标由由多层感知机(MLP)和卷积层堆叠创建的视频帧来表示。与基本神经场设计相比,我们的方法大大减少了编码时间,并且在视频压缩技术方面表现出色。这种范式遵循了最近提出的E-NeRV,同时也提升了视频质量。如图1所示,它们提供了用于电影的流引导的逐帧神经表示(FFNeRV)。它们将光流嵌入到逐帧表示中,利用时间冗余,借鉴了常见的视频编解码器。通过组合由光流引导的附近帧,FFNeRV创建了一个视频帧,强制重用先前帧的像素。鼓励网络避免在帧之间再次记住相同的像素值,极大地提高了参数效率。

根据对UVG数据集的实验结果,FFNeRV在视频压缩和帧插值方面击败了其他逐帧算法。他们建议使用多分辨率时间网格,以固定空间分辨率代替MLP,将连续的时间坐标映射到相应的潜在特征,以进一步提高压缩性能。这受到基于网格的神经表示的启发。此外,他们建议使用更简洁的卷积结构。他们在推荐的逐帧流表示中使用群组和逐点卷积,由生成模型驱动,生成高质量的图片和轻量级神经网络。通过量化感知训练和熵编码,FFNeRV击败了流行的视频编解码器(H.264和HEVC),并与最先进的视频压缩算法表现相当。代码实现基于NeRV,可在GitHub上获得。

Leave a Reply

Your email address will not be published. Required fields are marked *