Press "Enter" to skip to content

新加坡国立大学(NTU)的研究人员推出了ResShift:一种新的上采样模型,它利用残差位移技术,相比其他方法更快地实现图像超分辨率

新加坡国立大学(NTU)的研究人员推出了ResShift:一种新的上采样模型,它利用残差位移技术,相比其他方法更快地实现图像超分辨率 四海 第1张新加坡国立大学(NTU)的研究人员推出了ResShift:一种新的上采样模型,它利用残差位移技术,相比其他方法更快地实现图像超分辨率 四海 第2张

低级视觉中的一个基本问题是图像超分辨率(SR),其目标是从低分辨率(LR)图像恢复高分辨率(HR)图像。由于现实环境中降级模型的复杂性和不可知性,这个问题需要解决。扩散模型是一种最近开发的生成模型,在创建图像方面取得了非凡的成功。它还在解决一些下游低级视觉问题方面显示出了显著的潜力,如图像编辑、图像修补和图像上色。此外,研究人员仍在努力确定扩散模型在困难且耗时的SR任务中的表现如何。

一个典型的方法是从头开始,将LR图像引入当前扩散模型(如DDPM)的输入后,使用SR的训练数据重新训练模型。另一种常见方法是在生成所需的HR图像之前,修改无条件预训练扩散模型的反向路径。不幸的是,这两种算法都继承了支撑DDPM的马尔可夫链,可能在推理中效率低下,有时需要几百甚至几千个采样步骤。尽管已经提出了几种加速方法来压缩推理中的采样阶段,但这些策略通常会导致性能显著降低和结果过于平滑。

新加坡国立大学(NTU)的研究人员推出了ResShift:一种新的上采样模型,它利用残差位移技术,相比其他方法更快地实现图像超分辨率 四海 第3张
图1比较了近年来包括BSRGAN、RealESRGAN、SwinIR、DASR和LDM在内的最新技术的质量。对于LDM和他们的方法,他们使用公式“LDM(或我们的)-A”来表示可视化的采样步骤数量,其中“A”是总的采样步骤数。请放大以获得更清晰的查看。

必须创建一种新颖的用于SR的扩散模型,以实现效率和性能的统一,而不会牺牲其中任何一项。让我们回顾一下用于图像生成的扩散模型。在正向过程中,通过许多步骤在观测数据上逐渐构建马尔可夫链,将其转化为预先指定的先验分布,通常是传统的高斯分布。然后,可以通过从先验分布中采样噪声图像并将其输入到马尔可夫链的反向路径中来生成图像。尽管高斯先验对于图像生成是一个不错的选择,但对于SR来说可能不是最佳选择,因为LR图像已经可用。

新加坡国立大学(NTU)的研究人员推出了ResShift:一种新的上采样模型,它利用残差位移技术,相比其他方法更快地实现图像超分辨率 四海 第4张

根据他们在这项研究中的论证,用于SR的适当扩散模型应该以基于LR图像的先验分布为基础,从而实现从LR图像到HR图像的迭代恢复,而不是基于高斯白噪声。这样的设计还可以减少采样所需的扩散步骤数量,提高推理的效率。南洋理工大学的研究人员提出了一种有效的扩散模型,它使用较短的马尔可夫链在HR图像和其等效的LR图像之间进行切换。马尔可夫链的初始状态近似于HR图像的分布,而其结束状态近似于LR图像的分布。

他们精心设计了一个过渡核,逐步调整它们之间的残差,以实现这一目标。残差信息可以在多个阶段中快速传递,使该技术比当前基于扩散的SR方法更加高效。此外,他们的体系结构使得可以以清晰、分析的方式表达证据的下限,简化训练优化目标的归纳过程。他们基于这个构建的扩散核心创建了一个高度灵活的噪声调度,调节残差的移动速率和每个步骤中的噪声水平。

通过调整其超参数,该调度方案可以在检索结果的保真度和真实性之间进行权衡。简而言之,以下是本研究的重要贡献:

• 他们为SR提供了一种有效的扩散模型,通过在推理过程中移动两者之间的残差,允许从不理想的LR图像到期望的HR图像的迭代采样过程。广泛的研究表明,他们的方法在效率方面具有优势,只需要15个简单步骤即可获得理想的结果,超过或至少与现有的基于扩散的SR技术相等,后者需要一个冗长的采样过程。图1显示了他们的检索结果与现有技术的对比。

• 对于建议的扩散模型,他们开发了一个高度可变的噪声调度,可以更准确地控制过渡过程中的残差和噪声水平的变化。

Leave a Reply

Your email address will not be published. Required fields are marked *