

人工智能(AI)和深度学习的进步,彻底改变了人类与计算机互动的方式。通过引入扩散模型,生成建模在文本生成、图片生成、音频合成和视频制作等各个领域都展示出了卓越的能力。
尽管扩散模型表现出卓越的性能,但这些模型通常计算成本较高,主要与庞大的模型大小和顺序去噪过程有关。这些模型的推理速度非常慢,为解决这一问题,研究人员进行了一系列努力,包括减少样本步骤的数量,使用模型修剪、蒸馏和量化等技术降低每个步骤的模型推理开销。
传统的扩散模型压缩方法通常需要大量的重新训练,这带来了实践和资金上的困难。为了克服这些问题,研究人员团队推出了DeepCache,一种新颖的无训练范式,旨在优化扩散模型的体系结构以加速扩散过程。
DeepCache利用了扩散模型连续去噪阶段固有的时间冗余性。这种冗余性的原因在于某些特征在连续的去噪步骤中会重复出现。它通过引入针对这些特性的缓存和检索方法,大大减少了重复计算。团队表示,这种方法基于U-Net属性,可以在有效更新低级特征的同时重复使用高级特征。
DeepCache的创意方法有效提高了Stable Diffusion v1.5的速度2.3倍,仅降低0.05的CLIP评分。同时,在LDM-4-G上展示出了印象深刻的4.1倍速度提升,虽然在ImageNet上的FID损失为0.22。
研究人员对DeepCache进行了评估,实验比较结果显示,DeepCache的性能优于当前的修剪和蒸馏技术,而这些技术通常需要重新训练。它甚至展示了与现有采样方法相兼容的特点。在相同吞吐量下,它与DDIM或PLMS的性能相似或略优,最大限度地提高了效率而不损失产生的输出质量。
研究人员总结了DeepCache的主要贡献如下:
- DeepCache与当前快速采样器配合良好,展示了实现类似甚至更好生成能力的可能性。
- 它通过在运行时动态压缩扩散模型,提高了图像生成速度,无需额外训练。
- 利用可缓存特征,DeepCache通过使用高级特征的时间一致性,减少了重复计算。
- DeepCache通过引入定制的扩展缓存间隔技术,提高了特征缓存的灵活性。
- 在CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017和PartiPrompt上的实验表明,DeepCache在DDPM、LDM和Stable Diffusion模型上的效果更好。
- 与需要重新训练的修剪和蒸馏算法相比,DeepCache的性能更好,保持了更高的效能。
总之,DeepCache作为一种扩散模型加速器,显示出巨大的潜力,为传统的压缩技术提供了有用且经济实惠的替代方案。