Press "Enter" to skip to content

微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐

微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐 四海 第1张微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐 四海 第2张

在向可适应、普适视觉模型迈出重大一步的突破性进展中,来自微软亚洲研究院的研究人员发布了InstructDiffusion。这一创新性框架通过为多种视觉任务提供统一的接口,革命性地改变了计算机视觉领域的格局。论文《InstructDiffusion: A Generalist Modeling Interface for Vision Tasks》介绍了一种能够同时处理各种视觉应用的模型。

InstructDiffusion的核心是一种新颖的方法:将视觉任务构建为人类直观的图像处理过程。与依赖预定义输出空间(如类别或坐标)的传统方法不同,InstructDiffusion在灵活的像素空间中运作,更接近人类感知。

该模型旨在根据用户提供的文本指令修改输入图像。例如,“在红色中圈出男人的右眼”这样的指令可以使模型适用于关键点检测等任务。同时,“将蓝色掩码应用于最右侧的狗”这样的指令可用于分割。

支撑该框架的是去噪扩散概率模型(DDPM),它生成像素输出。训练数据包括三元组,每个三元组由指令、源图像和目标输出图像组成。该模型被设计为处理三种主要输出类型:RGB图像、二值掩码和关键点。这涵盖了广泛的视觉任务,包括分割、关键点检测、图像编辑和增强。

关键点检测

微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐 四海 第3张
a) 在鲸鱼的右眼周围创建一个黄色圆圈。 (b) 用蓝色圆圈标记汽车标志。

分割

微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐 四海 第4张
a) 将镜子中猫的像素标记为蓝色,其他保持不变。 (b) 将阴影像素涂成蓝色,保持其他像素的当前外观。

图像编辑

微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐 四海 第5张
模型生成的图像结果

低级任务

微软研究人员提出了InstructDiffusion:一种统一且通用的人工智能框架,用于将计算机视觉任务与人类指令对齐 四海 第6张
InstructDiffusion也适用于包括图像去模糊、去噪和去水印在内的低级视觉任务。

实验表明,InstructDiffusion在单个任务中表现出色,超过了专门的模型。然而,真正的奇迹在于它的泛化能力。它展示了与人工智能(AGI)常常相关联的标志性特征,能够在训练过程中灵活地适应未遇到的任务。这标志着计算机视觉领域朝着统一、灵活的框架迈进的重要一步。

一个关键的发现是,同时训练模型在多样的任务上显著增强了其对新场景的泛化能力。尽管与训练数据相比,InstructDiffusion在HumanArt和AP-10K动物数据集上表现出了非凡的关键点检测能力。

研究团队强调了高度详细的指令对于提高模型的泛化能力的重要性。仅仅像“语义分割”这样的任务名称证明是不够的,特别是在新颖的数据类型上表现不佳。这凸显了InstructDiffusion能够理解详细指令背后的具体含义和意图,而不是依靠记忆。

通过强调理解而不是记忆,InstructDiffusion学习到了强大的视觉概念和语义含义。这种区别在理解其卓越的泛化能力方面至关重要。例如,像“用红色画圈标记猫的左耳”这样的指令使模型能够区分特定的元素,比如“猫”、“左耳”和“红色圆圈”,展示了它精细的理解能力。

这一突破性的发展将计算机视觉模型推向成为多才多艺的通才,反映了人类感知。InstructDiffusion的界面引入了在大多数当前视觉系统中缺失的灵活性和互动性,弥合了人类和机器在计算机视觉方面的理解差距。这项研究的影响深远,为发展有能力的多用途视觉智能代理铺平了道路,展示了将普通视觉智能推向新高度的潜力。

Leave a Reply

Your email address will not be published. Required fields are marked *