计算机视觉社区面临着各种各样的挑战。在预训练时代,许多研讨会论文讨论了建立多功能视觉工具的全面框架,用以引入多样化的视觉工具。在这个时期占主导地位的方法是在大量相关问题的数据上进行预训练,然后将其转移到与同一问题类型相关的各种实际场景中,通常使用零或少样本技术。
最近微软的一项研究深入探究了具有视觉和视觉语言功能的多模态基础模型的历史和发展,特别强调了从专门化助手到通用助手的转变。
根据他们的论文,主要讨论了三种初始策略的主要类别:
标签监督:标签监督使用先前标记的示例来训练模型。使用ImageNet和类似的数据集已经证明了这种方法的有效性。我们可以从互联网、图像和人工创建的标签中获得大量的嘈杂数据集。
也被称为“语言监督”,这种策略使用无监督的文本信号,最常见的是图像-文字对。CLIP和ALIGN是使用对比损失比较图像-文字对的预训练模型的例子。
仅使用图像作为监督信号的图像自监督学习:这种技术完全依赖视觉图像作为监督信号的来源。遮挡图像建模、非对比和对比学习都是可行的选择。
研究人员研究了几种用于视觉理解的方法,例如用于图像标注、视觉问答、基于区域的预训练用于引接和基于像素的预训练用于分割等,可以整合以获得最佳结果。
多模态基础模型
理解和解释以多种模态呈现的数据,如文本和图像,是多模态基础模型的特点。它们使得可能进行各种任务,否则需要大量的数据收集和综合。重要的多模态概念框架包括以下几个:
- CLIP(对比语言-图像预训练)是一种开创性的技术,用于发现共同的图像和文本嵌入空间。它可以进行图像-文本检索和零射击分类等任务。
- BEiT(视觉中的BERT)将BERT的遮挡图像建模技术应用于视觉领域。可以预测遮挡图像中的令牌,使图像转化器能够进行其他任务。
- CoCa(对比和字幕预训练)将对比学习与字幕损失相结合,用于对图像编码器进行预训练。多模态任务的完成现在成为可能,得益于释义图像字幕系统。
- UniCL(统一对比学习)通过将CLIP的对比学习扩展到图像标签数据,实现了图像-文字和图像-标签对的统一对比预训练。
- MVP(遮挡图像建模视觉预训练)是一种使用遮挡图像和高层特征目标进行预训练的视觉转换器方法。
- 为了提高MIM的精度,EVA(利用视觉-文本对齐)使用来自CLIP等模型的图像特征作为目标特征。
- BEiTv2在BEiT的基础上改进,通过引入像DINO一样的自蒸馏损失来促进全局视觉表示的学习。
这些多模态基础模型极大地提高了计算机视觉和自然语言处理应用中的模型解释和处理能力。
他们的研究进一步探讨了“视觉生成”,发现文本到图像生成模型一直是图片合成的基础。这些模型已成功扩展,以允许更精细的用户控制和定制。与问题相关的大量数据的可用性和生成是实施这些多模态基础模型的关键因素。
T2I生成简介T2I生成试图提供与文本描述相对应的视觉效果。这些模型通常在图像和文本对上进行训练,其中文本提供输入条件,照片则作为所需的输出。
本书从稳定的扩散(SD)示例中解释了T2I模型。由于其基于交叉关注的图像-文本融合和基于扩散的生成方法,SD是一种备受喜爱的开源T2I模型。
稳定扩散的主要组成部分有三个:去噪统一神经网络(U-Net)、文本编码器和图像变分自动编码器(VAE)。VAE对图像进行编码,TEN对文本条件进行编码,Denoising U-Net在潜在空间中预测噪声以生成新的图像。
探讨提高T2I生成中的空间可控性,其中一种方法是允许在文本之外输入更多的空间条件,例如区域相关的文本描述、分割蒙版和关键点等密集空间要求。它探讨了ControlNet等T2I模型如何使用分割蒙版和边缘图等详尽限制来管理成像生成过程。
介绍了基于文本的编辑模型的最新发展;这些模型可以根据文本指令来修改照片,消除了用户生成蒙版的需要。通过对齐调整,T2I模型可以更好地遵循文本提示,类似于如何训练语言模型以改进文本生成。讨论了可能的解决方案,包括基于强化学习的解决方案。
随着文中提到的集成对齐解决方案的T2I模型日益受到欢迎,未来不再需要独立的图像和文本模型。在这项研究中,团队提出了一种统一的T2I模型输入界面,可以同时输入图像和文本,以辅助空间控制、编辑和概念定制等任务。
与人类意图对齐
为了确保T2I模型生成与人类意图良好相符的图像,研究强调了对齐关注的损失和奖励的要求,类似于如何对语言模型进行针对特定任务的微调。研究探讨了在多模态模型的背景下,结合内容理解和生成的闭环集成的潜在好处,这些模型将理解和生成任务进行混合。使用统一建模原则,不同层次和不同活动的统一视觉模型得到构建。
开放世界、统一和互动的视觉模型是视觉研究社区目前关注的焦点。然而,在语言和视觉领域之间仍存在一些基本差距。
- 与语言不同,视觉数据不带标签,使得传达意义或专业知识变得困难。对视觉内容进行语义或地理空间注释始终是费时费力的。
- 与口头数据相比,视觉数据和活动的种类更多。
- 最后,存档视觉数据的成本要比其他语言的数据高得多。与GPT-3相比,ImageNet数据集(包含130万张图像)需要45 TB的训练数据,只比几百GB更昂贵。至于视频数据,存储成本接近于GPT-3训练语料库的成本。
这些不同观点之间的差异在后续章节中进行辩论。在实际应用计算机视觉的真实世界中。因此,用于训练模型的现有视觉数据不能准确地表示整个真实世界的多样性。尽管努力构建开放式视觉模型,但在处理新奇事件或长尾事件方面仍存在重大挑战。
他们认为,需要与视觉规模相适应的一些法则。早期的研究表明,随着模型规模、数据规模和计算能力的增加,大型语言模型的性能稳步提升。在更大的规模下,LLMs展示出一些显著的新特性。然而,如何最好地扩展视觉模型并利用其产生的特性仍然是一个谜。使用视觉或语言输入的模型。近年来,视觉和口头领域之间的分隔越来越少。然而,考虑到视觉和语言之间的内在差异,质疑中等视觉模型和LLMs的组合是否足以应对大多数(如果不是所有)问题。然而,创建一个与人类相当的完全自主的AI视觉系统仍然有一段距离。研究人员通过使用LLaVA和MiniGPT-4作为示例,探索了LMM的背景和强大特性,研究了LLMs中的指令调整,并展示了如何利用开源资源构建原型。
研究人员希望社区继续致力于为新功能和评估技术开发原型,以降低计算障碍,使大型模型更易于使用,并继续关注扩展成功和研究新的新兴特性。