Press "Enter" to skip to content

NTU研究人员发布尊尚视频:先导性的文本引导潜隐扩散技术,提升视频超分辨率

视频超分辨率旨在将低质量视频提升到高保真度,面临的挑战是解决现实世界场景中常见的多样化且复杂的退化问题。与以前关注合成或特定相机相关退化不同,该复杂性源于多个未知因素,如降采样、噪声、模糊、闪烁和视频压缩。虽然最近的基于CNN的模型在缓解这些问题方面显示出了希望,但由于有限的生成能力,它们在生成逼真纹理方面仍然存在局限性,导致过度平滑。本研究探讨了利用扩散模型来解决这些限制并增强视频超分辨率的方法。

现实世界视频增强的复杂性要求采用超越传统方法的解决方案,以应对多方面的退化问题。尽管基于CNN的模型在缓解多种退化形式方面展示出实力,但它们的局限性在于生成逼真纹理,往往导致过度平滑的输出结果。扩散模型已成为一个希望的象征,在生成高质量图像和视频方面展示出令人印象深刻的能力。然而,将这些模型应用于视频超分辨率仍然是一个艰巨的挑战,原因是扩散采样中存在固有的随机性,导致低级纹理的时间不连续性和闪烁。

为了应对这些挑战,本研究中的NTU研究人员采用了潜在扩散框架内的局部-全局时间一致性策略。在局部层面上,预训练的放大模型通过额外的时间层进行微调,整合了3D卷积和时间注意力层。这种微调显著提高了局部序列的结构稳定性,减少了纹理闪烁等问题。同时,一个新颖的流引导的循环潜在传播模块在全局层面上操作,通过逐帧传播和推断期间的潜在融合,确保了更长视频的整体稳定性。

图1:AI生成和现实世界视频的超分辨率对比。建议的Upscale-A-Video展示了出色的放大性能。通过使用正确的文本提示,它以更多的视觉逼真度和更精细的细节呈现惊人的效果。

本研究探索了创新的方向,通过引入文本提示来指导纹理生成,使模型能够产生更加逼真和高质量的细节。此外,将噪声注入输入可以增强模型对于重度或未知退化的鲁棒性,从而在恢复和生成之间实现控制。较低的噪声水平优先考虑恢复能力,而较高的噪声水平则鼓励更精细的细节生成,实现保真度和质量之间的权衡。

主要贡献在于制定了一种强大的实际视频超分辨率方法,将局部-全局时间策略结合到隐藏扩散框架中。通过整合时间一致性机制和对噪声水平和文本提示的创新控制,模型在基准测试上表现出卓越的视觉逼真度和时间连贯性,展示出了最新技术水平。

Leave a Reply

Your email address will not be published. Required fields are marked *