Press "Enter" to skip to content

DALL·E 3是如何构建的?(OpenAI最佳文本到图像模型)

通过更好的标题提升图像生成技术

本文最初发布在louisbouchard.ai,在我的博客上提前2天阅读。

观看视频:

去年,我们非常惊叹于OpenAI发布的首个超级震撼的文本到图像模型DALL·E 2。但是,今天准备进入一个艺术与技术融合的全新世界,迎接DALL·E 3版本的来临!

让我们通过OpenAI刚刚发布的全新论文,深入了解DALL·E 3的卓越进展,它将DALL·E 2甩在了几条街之外!

在一个奇幻的场景中,一只高度详细的毛茸茸的人形臭鼬自信地站立在一张VoAGI的照片中,身穿一件动物皮外套。艺术家巧妙地将这个角色渲染成数字艺术,捕捉到了毛发和服装纹理的复杂细节。图像和标题来源于论文。

DALL·E 3是基于描述性生成图像标题进行训练的,它不仅仅是根据提示生成图像,而是为这些提示赋予了生命。结果令人难以置信,它不仅理解提示,还理解提示背后的故事。自2020年以来的进展简直不可思议。

DALLE 1的结果。图像来源于OpenAI的博文:A. Ramesh et al.,《零-shot文本到图像生成》, 2021. arXiv:2102.12092.

DALL·E 3的强大之处在于一个强大的图像标题生成器。一切都取决于图像标题,因此在训练过程中,文本与应该生成的图像一起提供。这个新的图像标题生成器是DALLE 3胜过DALLE 2的主要因素。之前的模型最初是通过从互联网上获取的图像和文本对进行自我监督训练的。想象一张Instagram图片和其标题或标签。它们并不总是那么有信息量,甚至可能没有关联。文章的作者主要描述了图片中的主要对象,而不是关于图片背后的整个故事或环境以及与主要对象一起出现在图片中的文本。同样,他们不说明一切在图片中的位置,这对确保准确重现类似图片至关重要。更糟糕的是,很多标题只是笑话、与图片无关的想法或诗句。在这一点上,用这样的方式进行训练…

Leave a Reply

Your email address will not be published. Required fields are marked *