微软研究人员提出了InstructDiffusion：一种统一且通用的人工智能框架，用于将计算机视觉任务与人类指令对齐

微软研究人员提出了InstructDiffusion：一种统一且通用的人工智能框架，用于将计算机视觉任务与人类指令对齐四海第1张

在向可适应、普适视觉模型迈出重大一步的突破性进展中，来自微软亚洲研究院的研究人员发布了InstructDiffusion。这一创新性框架通过为多种视觉任务提供统一的接口，革命性地改变了计算机视觉领域的格局。论文《InstructDiffusion: A Generalist Modeling Interface for Vision Tasks》介绍了一种能够同时处理各种视觉应用的模型。

InstructDiffusion的核心是一种新颖的方法：将视觉任务构建为人类直观的图像处理过程。与依赖预定义输出空间（如类别或坐标）的传统方法不同，InstructDiffusion在灵活的像素空间中运作，更接近人类感知。

该模型旨在根据用户提供的文本指令修改输入图像。例如，“在红色中圈出男人的右眼”这样的指令可以使模型适用于关键点检测等任务。同时，“将蓝色掩码应用于最右侧的狗”这样的指令可用于分割。

支撑该框架的是去噪扩散概率模型（DDPM），它生成像素输出。训练数据包括三元组，每个三元组由指令、源图像和目标输出图像组成。该模型被设计为处理三种主要输出类型：RGB图像、二值掩码和关键点。这涵盖了广泛的视觉任务，包括分割、关键点检测、图像编辑和增强。

关键点检测

微软研究人员提出了InstructDiffusion：一种统一且通用的人工智能框架，用于将计算机视觉任务与人类指令对齐四海第3张 — a) 在鲸鱼的右眼周围创建一个黄色圆圈。 (b) 用蓝色圆圈标记汽车标志。

分割

微软研究人员提出了InstructDiffusion：一种统一且通用的人工智能框架，用于将计算机视觉任务与人类指令对齐四海第4张 — a) 将镜子中猫的像素标记为蓝色，其他保持不变。 (b) 将阴影像素涂成蓝色，保持其他像素的当前外观。

图像编辑

微软研究人员提出了InstructDiffusion：一种统一且通用的人工智能框架，用于将计算机视觉任务与人类指令对齐四海第5张 — 模型生成的图像结果

低级任务

微软研究人员提出了InstructDiffusion：一种统一且通用的人工智能框架，用于将计算机视觉任务与人类指令对齐四海第6张 — InstructDiffusion也适用于包括图像去模糊、去噪和去水印在内的低级视觉任务。

实验表明，InstructDiffusion在单个任务中表现出色，超过了专门的模型。然而，真正的奇迹在于它的泛化能力。它展示了与人工智能（AGI）常常相关联的标志性特征，能够在训练过程中灵活地适应未遇到的任务。这标志着计算机视觉领域朝着统一、灵活的框架迈进的重要一步。

一个关键的发现是，同时训练模型在多样的任务上显著增强了其对新场景的泛化能力。尽管与训练数据相比，InstructDiffusion在HumanArt和AP-10K动物数据集上表现出了非凡的关键点检测能力。

研究团队强调了高度详细的指令对于提高模型的泛化能力的重要性。仅仅像“语义分割”这样的任务名称证明是不够的，特别是在新颖的数据类型上表现不佳。这凸显了InstructDiffusion能够理解详细指令背后的具体含义和意图，而不是依靠记忆。

通过强调理解而不是记忆，InstructDiffusion学习到了强大的视觉概念和语义含义。这种区别在理解其卓越的泛化能力方面至关重要。例如，像“用红色画圈标记猫的左耳”这样的指令使模型能够区分特定的元素，比如“猫”、“左耳”和“红色圆圈”，展示了它精细的理解能力。

这一突破性的发展将计算机视觉模型推向成为多才多艺的通才，反映了人类感知。InstructDiffusion的界面引入了在大多数当前视觉系统中缺失的灵活性和互动性，弥合了人类和机器在计算机视觉方面的理解差距。这项研究的影响深远，为发展有能力的多用途视觉智能代理铺平了道路，展示了将普通视觉智能推向新高度的潜力。