Press "Enter" to skip to content

愉快的一周年纪念日🤗,扩散器!

🤗 Diffusers很高兴庆祝其成立一周年!这是一个令人兴奋的一年,我们为自己取得的成就感到自豪和感激,这离不开我们的社区和开源贡献者们。去年,像DALL-E 2、Imagen和Stable Diffusion这样的文本到图像模型以其生成惊人逼真的图像能力吸引了世界的注意,引发了对生成式人工智能的巨大兴趣和发展。但是,使用这些强大模型的权限是有限的。

在Hugging Face,我们的使命是通过合作和互相帮助打造一个开放和道德的人工智能未来,以实现机器学习的民主化。这一使命激励我们创建了🤗 Diffusers库,以便每个人都可以通过它来进行实验、研究或者简单地玩转文本到图像模型。这就是为什么我们将该库设计为一个模块化的工具箱,让您可以自定义扩散模型的组件,或者直接使用它。

随着🤗 Diffusers迈入一岁,以下是我们与社区的帮助下为该库增加的一些最显著特性的概述。我们为能够成为一个积极参与、推动扩散模型超越仅文本到图像生成的可访问使用,并且在各方面都是一个灵感的社区而感到自豪和无比感激。

目录

  • 追求逼真度
  • 视频流程
  • 文本到3D模型
  • 图像编辑流程
  • 更快的扩散模型
  • 伦理和安全
  • 对LoRA的支持
  • Torch 2.0优化
  • 社区亮点
  • 使用🤗 Diffusers构建产品
  • 展望未来

追求逼真度

生成式人工智能模型以创建逼真的图像而闻名,但如果您仔细观察,您可能会注意到某些看起来不对劲的事情,比如在手上生成多余的手指。今年,DeepFloyd IF和Stability AI SDXL模型通过提高生成图像的质量使其更加逼真。

DeepFloyd IF – 一个模块化扩散模型,包括用于生成图像的不同过程(例如,图像通过3倍缩放以生成更高分辨率的图像)。与Stable Diffusion不同,IF模型直接在像素级别上工作,并使用大型语言模型对文本进行编码。

Stable Diffusion XL(SDXL)- Stability AI的最新Stable Diffusion模型,比其前身Stable Diffusion 2具有更多的参数。它生成超逼真的图像,利用基础模型以紧密遵循提示,并使用专门处理细节和高频内容的细化模型。

今天就访问DeepFloyd IF文档和SDXL文档,了解如何开始生成您自己的图像!

视频流程

文本到图像的流程很酷,但文本到视频更酷!我们目前支持两种文本到视频的流程,VideoFusion和Text2Video-Zero。

如果您已经熟悉文本到图像的流程,那么使用文本到视频的流程就非常相似:

import torch
from diffusers import DiffusionPipeline
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_576w", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()

prompt = "黑武士冲浪"
video_frames = pipe(prompt, num_frames=24).frames
video_path = export_to_video(video_frames)

我们预计在🤗 Diffusers的第二年,文本到视频将经历一场革命,并且我们很期待看到社区在这方面取得的成果,推动语言生成视频的边界!

文本到3D模型

除了文本到视频,我们现在还可以通过OpenAI的Shap-E模型进行文本到3D生成。Shap-E通过对大规模的3D-文本配对数据集进行编码训练,然后将扩散模型条件化于编码器的输出。您可以为视频游戏、室内设计和建筑设计3D资产。

使用ShapEPipelineShapEImg2ImgPipeline,今天就试试吧。

图像编辑流程

图像编辑是时尚、材料设计和摄影中最实用的应用之一。借助扩散模型,图像编辑的可能性不断扩展。

我们在🤗 Diffusers中有许多流水线来支持图像编辑。有一些图像编辑流水线可以将您期望的编辑描述为提示,从图像中去除概念,甚至有一种流水线可以统一多种生成方法,创建像全景照片这样的高质量图像。借助🤗 Diffusers,您现在可以尝试未来的照片编辑技术!

更快的扩散模型

由于迭代步骤,扩散模型因其耗时而闻名。有了OpenAI的一致性模型,图像生成过程显著加快。在现代CPU上,生成一张256×256分辨率的图像只需3/4秒!您可以在🤗 Diffusers中尝试使用ConsistencyModelPipeline进行实验。

除了速度更快的扩散模型,我们还提供许多优化技术,以加快推断速度,如PyTorch 2.0的scaled_dot_product_attention()(SDPA)和torch.compile(),切片注意力,前馈分块,VAE平铺,CPU和模型卸载等。这些优化可以节省内存,从而提高生成速度,并可以在消费级GPU上运行推断。当您使用🤗 Diffusers分发模型时,所有这些优化都将得到立即支持!

除此之外,我们还支持特定的硬件和格式,如ONNX,适用于苹果Silicon计算机的mps PyTorch设备,Core ML等。

要了解有关我们如何通过🤗 Diffusers进行推断优化的更多信息,请查阅文档!

伦理和安全

生成模型很酷,但它们也有可能生成有害和不适宜的内容。为了帮助用户负责任和道德地与这些模型进行交互,我们添加了一个safety_checker组件,在推断过程中标记不适宜的内容。如果希望,模型创建者可以选择将此组件纳入其模型中。

此外,生成模型也可以用于制造虚假信息。今年早些时候,巴黎世家教皇的照片因其逼真而走红,尽管它是假的。这凸显了区分生成内容和人类内容的机制的重要性和必要性。因此,我们为SDXL模型生成的图像添加了一个不可见的水印,以帮助用户更好地了解情况。

这些功能的开发受到我们的伦理宪章的指导,您可以在我们的文档中找到。

对LoRA的支持

对于大多数消费级GPU来说,微调扩散模型是昂贵且难以实现的。我们添加了低秩适应(LoRA)技术来弥补这一差距。借助LoRA,一种有效的参数微调方法,您可以更快地微调大型扩散模型并且占用更少的内存。与原始模型相比,得到的模型权重也非常轻巧,因此您可以轻松共享自定义模型。如果想了解更多信息,我们的文档展示了如何在稳定扩散中使用LoRA进行微调和推断。

除了LoRA,我们还支持其他用于个性化生成的训练技术,包括DreamBooth、文本反演、自定义扩散等等!

Torch 2.0优化

PyTorch 2.0引入了对torch.compile()scaled_dot_product_attention()的支持,这是一种更高效的注意力机制实现。🤗 Diffusers为这些功能提供了一流的支持,从而大大加快了推断延迟,有时甚至可以快两倍以上!

除了视觉内容(图像、视频、3D资产等),我们还为音频提供了支持!请查看文档以获取更多信息。

社区亮点

过去一年中最令人满意的经历之一就是看到社区如何将🤗 Diffusers纳入其项目中。从将低秩适应(LoRA)调整为更快地训练文本到图像模型,到构建一款最先进的修复工具,以下是我们最喜欢的一些项目:

我们还与Google Cloud合作(他们慷慨提供计算资源),以提供技术指导和指导,帮助社区使用TPU训练扩散模型(在此处查看活动摘要)。有许多很酷的模型,例如将ControlNet与Segment Anything结合的演示。

最后,我们很高兴收到了来自300多位贡献者对我们的代码库的贡献,这使我们能够以最开放的方式共同合作。以下是我们社区的一些贡献:

  • @bahjat-kawar进行的模型编辑,用于编辑模型的隐含假设的流程
  • @estelleafl的LDM3D,用于处理3D图像的扩散模型
  • @LuChengTHU的DPMSolver,用于显著提高推理速度的改进
  • @nupurkmr9的自定义扩散,一种使用少量主题图像生成个性化图像的技术

除此之外,我们还要衷心感谢以下贡献者,他们帮助我们推出了Diffusers最强大的功能(无特定顺序):

  • @takuma104
  • @nipunjindal
  • @isamu-isozaki
  • @piEsposito
  • @Birch-san
  • @LuChengTHU
  • @duongna21
  • @clarencechen
  • @dg845
  • @Abhinay1997
  • @camenduru
  • @ayushtues

使用🤗 Diffusers构建产品

在过去的一年中,我们还看到很多公司选择在🤗 Diffusers的基础上构建他们的产品。以下是一些引起我们注意的产品:

  • PlaiDay:“PlaiDay是一种生成式人工智能体验,人们可以在其中协作、创造和联系。我们的平台释放了人类思维的无限创造力,并为表达提供了一个安全、有趣的社交画布。”
  • Previs One:“Previs One是一个用于电影故事板和预可视化的扩散器流水线 – 它可以像导演一样理解电影和电视的构图规则。”
  • Zust.AI:“我们利用生成式人工智能为品牌和营销机构创建高质量的产品照片。”
  • Dashtoon:“Dashtoon正在构建一个创建和消费视觉内容的平台。我们有多个加载多个LORA、多个控制网络甚至多个由Diffusers提供动力的模型的流水线。Diffusers使产品工程师和ML工程师之间的差距变得非常小,使得Dashtoon能够更快、更好地提供用户价值。”
  • Virtual Staging AI:“使用生成模型为空房间添置美丽的家具。”
  • Hexo.AI:“Hexo AI通过规模化个性化营销帮助品牌提高市场投资回报率。Hexo正在构建一个专有的广告活动生成引擎,它能够处理客户数据并生成符合品牌要求的个性化创意。”

如果您正在使用🤗 Diffusers构建产品,我们很乐意与您交流,了解如何共同改进这个库!请随时联系patrick@hf.co或sayak@hf.co。

展望未来

在庆祝我们的第一个周年之际,我们感谢我们的社区和开源贡献者,在如此短的时间内帮助我们取得如此大的进展。我们很高兴地分享,我们将在今年秋季的ICCV 2023上展示🤗 Diffusers的演示 – 如果您参加,请务必来看看我们!我们将继续开发和改进我们的库,使其更易于使用。我们也很期待看到社区将用我们的工具和资源创造出什么。感谢您迄今为止参与我们的旅程,并期待继续共同推进机器学习的民主化!🥳

❤️ Diffusers团队


致谢:感谢Omar Sanseviero、Patrick von Platen、Giada Pistilli进行的评论,以及Chunte Lee设计的缩略图。

Leave a Reply

Your email address will not be published. Required fields are marked *