Press "Enter" to skip to content

我们应该如何存储人工智能图像?谷歌研究人员提出了一种使用基于分数的生成模型的图像压缩方法

我们应该如何存储人工智能图像?谷歌研究人员提出了一种使用基于分数的生成模型的图像压缩方法 计算科学 第1张我们应该如何存储人工智能图像?谷歌研究人员提出了一种使用基于分数的生成模型的图像压缩方法 计算科学 第2张

一年前,利用人工智能生成逼真的图像还只是一个梦想。我们对看到的生成人脸的相似度感到印象深刻,尽管大多数输出结果有三只眼睛,两个鼻子等等。然而,随着扩散模型的发布,事情迅速发生了变化。现在,很难区分由人工智能生成的图像和真实的图像。

生成高质量图像的能力只是方程式的一部分。如果我们能够适当地利用它们,高效压缩它们在内容生成、数据存储、传输和带宽优化等任务中扮演着至关重要的角色。然而,图像压缩主要依赖于传统的方法,如变换编码和量化技术,对生成模型的探索有限。

尽管扩散模型和基于分数的生成模型在图像生成方面取得了成功,但它们尚未成为图像压缩的主流方法,落后于基于GAN的方法。它们在高分辨率图像上表现得更差或与HiFiC等基于GAN的方法相当。即使试图将文本到图像模型重新用于图像压缩,也产生了令人不满意的结果,产生了偏离原始输入或包含不良工件的重建。

基于分数的生成模型在图像生成任务中的表现与它们在图像压缩方面的有限成功之间的差距引发了有趣的问题,促使进一步的研究。令人惊讶的是,能够生成高质量图像的模型尚未能够在图像压缩的特定任务中超越GAN。这种差异表明,在将基于分数的生成模型应用于压缩任务时可能存在独特的挑战和考虑因素,需要专门的方法来发挥它们的全部潜力。

因此,我们知道基于分数的生成模型在图像压缩方面有潜力。问题是,如何做到呢?让我们来看看答案。

谷歌研究人员提出了一种方法,将一个标准的自编码器,针对均方误差(MSE)进行了优化,与扩散过程相结合,以恢复并添加自编码器丢弃的细节。编码图像的比特率完全由自编码器确定,因为扩散过程不需要额外的比特。通过专门为图像压缩调整扩散模型,显示出它们可以在图像质量方面优于几种最新的生成方法。

我们应该如何存储人工智能图像?谷歌研究人员提出了一种使用基于分数的生成模型的图像压缩方法 计算科学 第3张
所提出的方法可以较好地保留细节,相较于现有的方法。来源:https://arxiv.org/pdf/2305.18231.pdf

该方法探索了两种密切相关的方法:扩散模型表现出了令人印象深刻的性能,但需要大量采样步骤,而修正流在允许更少的采样步骤时表现更好。

这种两步方法首先使用MSE优化的自编码器对输入图像进行编码,然后应用扩散过程或修正流来增强重建的逼真度。扩散模型采用与文本到图像模型相反的噪声计划,优先考虑细节而不是全局结构。另一方面,修正流模型利用自编码器提供的配对将自编码器输出直接映射到未压缩的图像。

我们应该如何存储人工智能图像?谷歌研究人员提出了一种使用基于分数的生成模型的图像压缩方法 计算科学 第4张
所提出的HFD模型概述。来源:https://arxiv.org/pdf/2305.18231.pdf

此外,该研究揭示了对未来研究有用的具体细节。例如,它表明噪声计划和图像生成过程中注入的噪声量显着影响结果。有趣的是,尽管文本到图像模型在高分辨率图像上训练时受益于增加噪声水平,但发现减少扩散过程的总体噪声对于压缩是有利的。这种调整使模型更专注于细节,因为自编码器重建已经足够捕捉了粗略的细节。

Leave a Reply

Your email address will not be published. Required fields are marked *