MAGE将通常分别训练的图像生成和识别这两个关键任务合并到一个单一系统中

计算机在图像方面具有两个显著的能力:它们既可以识别图像,又可以重新生成图像。在历史上,这些功能一直是分开的,就像一个擅长烹饪菜肴(生成)的厨师和一个擅长品尝菜肴(识别)的鉴赏家的不同行为一样。
然而,人们不禁要问:要实现这两种独特能力之间的和谐统一需要什么呢?厨师和鉴赏家在对食物口感的理解上有共同的认识。类似地,一个统一的视觉系统需要对视觉世界有深刻的理解。
现在,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员训练了一个系统来推断图像中缺失的部分,这需要对图像的内容进行深入理解。通过成功填补空白,该系统名为Masked Generative Encoder(MAGE)同时实现了两个目标:准确识别图像并创建与现实相似的新图像。
这种双重用途的系统可以实现多种潜在应用,如图像中的对象识别和分类、从最少的示例中快速学习、在特定条件下(如文本或类别)创建图像以及增强现有图像。
与其他技术不同,MAGE不使用原始像素。相反,它将图像转换为所谓的“语义标记”,这些标记是图像部分的紧凑而抽象的版本。可以将这些标记视为迷你拼图块,每个标记代表原始图像的一个16×16的区块。就像单词组成句子一样,这些标记创建了图像的一个抽象版本,可以用于复杂的处理任务,同时保留原始图像中的信息。这种标记化步骤可以在无监督的框架中进行训练,使其可以在大型图像数据集上进行预训练,而无需标签。
当MAGE使用“掩码标记建模”时,魔法就开始了。它随机隐藏其中一些标记,创建一个不完整的拼图,然后训练神经网络来填补空白。通过这种方式,它学会了理解图像中的模式(图像识别)并生成新的模式(图像生成)。
“MAGE的一个显著特点是它在预训练期间的可变掩码策略,使其能够在同一个系统中为图像生成或识别这两个任务进行训练”,麻省理工学院电气工程与计算机科学博士生、CSAIL附属研究员、该研究的主要作者李天宏表示。“MAGE能够在‘标记空间’而不是‘像素空间’中工作,从而实现清晰、详细和高质量的图像生成,以及语义丰富的图像表示。这有望为先进且集成的计算机视觉模型铺平道路。”
除了能够从零开始生成逼真的图像外,MAGE还可以进行条件图像生成。用户可以指定他们希望MAGE生成的图像的特定条件,该工具将生成相应的图像。它还能够进行图像编辑任务,如删除图像中的元素而保持逼真的外观。
图像识别任务也是MAGE的强项。通过在大型无标签数据集上进行预训练,它可以仅使用学习到的表示对图像进行分类。此外,它在少样本学习方面表现出色,在像ImageNet这样的大型图像数据集上只使用少数标记示例就能取得令人印象深刻的结果。
MAGE的性能验证令人印象深刻。一方面,它在生成新图像方面创造了新纪录,优于以前的模型并取得了显著改进。另一方面,MAGE在识别任务中表现出色,在ImageNet上的线性探测准确率达到了80.9%,10个示例的准确率达到了71.9%(这意味着它在每个类别仅有10个标记示例的情况下正确识别图像的情况下达到了71.9%的准确率)。
尽管MAGE具有很多优点,但研究团队承认它仍然是一个正在进行中的工作。将图像转换为标记的过程不可避免地导致了一些信息损失。他们渴望在未来的工作中探索在不丢失重要细节的情况下压缩图像的方法。该团队还打算在更大的数据集上测试MAGE。未来的探索可能包括在更大的无标签数据集上对MAGE进行训练,从而可能实现更好的性能。
“实现图像生成和图像识别在一个单一系统中一直是一个长期的梦想。MAGE是一项开创性的研究,成功地利用了这两个任务的协同作用,并在一个单一系统中实现了它们的最新技术,”谷歌研究与机器智能部门的高级软件工程师王辉生表示(他并未参与此项工作)。这一创新性系统具有广泛的应用,并有潜力在计算机视觉领域激发许多未来的工作。
Li与麻省理工学院电气工程与计算机科学系的Thuan和Nicole Pham教授以及CSAIL首席研究员Dina Katabi共同撰写了这篇论文;Google的高级研究科学家Huiwen Chang;美国马里兰大学的博士生和Google研究实习生Shlok Kumar Mishra;Google的高级研究科学家Han Zhang;以及Google的研究员Dilip Krishnan。Google Cloud Platform和MIT-IBM Watson Research Collaboration提供了计算资源。该团队的研究成果在2023年计算机视觉与模式识别会议上进行了展示。