四海吧 – Page 13 – 四海之内皆兄弟，四海带你涨姿势

北京大学和微软的研究人员推出COLE：一种有效的分层生成框架，可将简单的意图提示转化为高质量的图形设计

Published December 4, 2023 by 四海吧

自然图片的制作质量现在与专业摄影相当，这要归功于最近在质量上有显著改进的成果。这一进步归因于DALL·E3、SDXL和Imagen等创建技术。推动这些发展的关键要素包括使用强大的大规模语言模型（LLM）作为文本编码器，扩大训练数据集，增加模型复杂度，改进采样策略设计以及提高数据质量。研究团队认为，现在是时候专注于开发更专业的图片，特别是在品牌设计、市场营销和广告中具有关键作用的图形设计。作为一个专业领域，图形设计利用视觉传达的力量向特定社会群体清晰传递信息。这是一个需要想象力、独创性和快速思维的领域。在图形设计中，通常使用数字或手动方法将文字和视觉元素结合起来，创造出视觉上引人注目的故事。其主要目标是组织数据，为概念提供意义，并为记录人类体验的对象提供表达和情感。在图形设计中，对字体、文字排列、装饰和图像的创造性运用常常可以通过独立的想法、感受和态度来实现，这是单纯使用文字无法表达的。制作出顶级设计需要高度的想象力、独创性和侧面思考。根据现有研究，具有突破性的DALL·E3在生成高质量设计图片方面具有显著的技能，如图1所示，其设计图片具有引人注目的布局和图形。然而，这些图片也存在着缺陷。它们持续面临的问题包括渲染视觉文本出现错误，经常会漏掉或添加额外的字符（这也是的情况）。此外，由于这些生成的图片基本上无法编辑，修改它们需要复杂的过程，例如分割、擦除和修复填充。用户需要提供全面的文本提示，这是另一个重要的限制。为视觉设计生产创建良好的提示通常需要高水准的专业技能。图1 使用设计意图说明了DALL·E3（增强版GPT-4）生成的设计图片。如图2所示，与DALL·E3不同，他们的COLE系统只需基本的用户需求就能生成优质的图形设计图片。根据研究团队的说法，这三个限制严重影响了图形设计图片的质量。高质量、可扩展的视觉设计生成系统理想情况下应该提供一个灵活的编辑区域，为各种用途生成准确、高质量的排版信息，并要求用户付出较低的努力。用户可以根据需要使用人工的技能进一步提升结果。这一努力旨在建立一个稳定有效的自主文本到设计系统，能够根据用户意图提示生成优秀的图形设计图片。图2：上图是COLE系统生成的图片的视觉呈现。有趣的是，我们的系统只接收一个文字意图描述作为输入。其余的元素包括文本、设计图形和相关的排版属性（如字体类型、大小和位置）都由智能系统独立生成。微软亚洲研究院和北京大学的研究团队提出了一种名为COLE的分层生成方法，以简化创建图形设计图像的复杂过程。该过程涉及几个专门的生成模型，每个模型旨在处理不同的子任务。首先，重点是创造性设计和解释，主要是理解意图。通过使用尖端的LLM（语言-物理模型），即Llama2-13B，并利用近10万个策划意图的JSON配对数据集进行优化来实现这一目标。设计相关的重要信息，包括文本说明、物品标题和背景标题，都包含在JSON文件中。研究团队还提供了用于其他目的的可选参数，如对象位置。其次，他们着重于视觉的布局和改善，其中包括两个子任务：视觉构件和排版特征的生成。创建各种视觉特征需要对专门的级联扩散模型进行微调，例如DeepFloyd/IF。这些模型的构建方式保证了组件之间的平滑过渡，例如分层对象图像和装饰背景。然后，研究团队使用使用LLaVA-1.5-13B构建的装帧大型多模态模型（LMM）预测排版的JSON文件。该预测使用来自设计LLM的JSON文件，来自扩散模型的投影背景图片以及来自级联扩散模型的期望对象图像。然后，可视化渲染器使用预测的JSON文件中找到的布局组装这些组件。第三阶段，为了提高设计的整体质量，提供了质量保证和评论。反映LMM必须进行仔细调整，并且必须使用GPT-4V(ision)进行全面而多方面的质量检查。这一最后阶段可以根据需要微调JSON文件，包括更改文本框的大小和位置。最后，研究团队创建了一个名为DESIGNERINTENTION的系统，其中包含大约200个专业图形设计意图提示，涵盖了各种类别和约20个创意类别，以评估系统的能力。然后，他们将他们的方法与目前使用的最先进的图像生成系统进行了比较，在各个子任务上进行了详尽的消融实验，对他们系统生成的图形设计进行了彻底的分析，并就图形设计图像生成的局限性和潜在未来发展方向进行了讨论。

四海吧 Posts