“微软AI提出MM-REACT：一种将ChatGPT和视觉专家结合起来进行高级多模态推理和行动的系统范式”

“微软AI提出MM-REACT：一种将ChatGPT和视觉专家结合起来进行高级多模态推理和行动的系统范式” 四海第1张

大型语言模型（LLMs）正在迅速发展，并对经济和社会变革做出重要贡献。随着互联网上发布了许多人工智能（AI）工具，其中一个在过去几个月中非常受欢迎的工具是ChatGPT。ChatGPT是一种自然语言处理模型，允许用户生成像人类一样有意义的文本。OpenAI的ChatGPT基于GPT变压器架构，GPT-4是支撑它的最新语言模型。

随着最新的人工智能和机器学习发展，计算机视觉得到了指数级的提升，网络架构和大规模模型训练得到了改进。最近，一些研究人员引入了MM-REACT，这是一种将多个视觉专家与ChatGPT结合起来进行多模态推理和行动的系统范例。MM-REACT以更灵活的方式将各个视觉模型与语言模型结合起来，以克服复杂的视觉理解挑战。

MM-REACT的目标是处理现有视觉和视觉语言模型难以应对的各种复杂视觉任务。为此，MM-REACT使用提示设计来表示各种类型的信息，例如文本描述、文本化的空间坐标以及作为对齐文件名表示的密集视觉信号，如图像和视频。这种设计使ChatGPT能够接受和处理不同类型的信息与视觉输入相结合，从而实现更准确、全面的理解。

MM-REACT是一个将ChatGPT的能力与一组视觉专家相结合以增加多模态功能的系统。文件路径被用作占位符，并输入到ChatGPT中，以使系统能够接受图像作为输入。每当系统需要从图像中获取特定信息，例如识别名人姓名或框坐标时，ChatGPT会寻求特定视觉专家的帮助。专家的输出被序列化为文本，并与输入结合起来进一步激活ChatGPT。如果不需要外部专家，则直接将响应返回给用户。

通过向ChatGPT提示中添加与每个专家能力、输入参数类型和输出类型相关的特定指令，以及每个专家的一些上下文示例，使ChatGPT能够理解视觉专家的使用知识。此外，还指导使用正则表达式匹配来调用相应的专家。

通过实验，零-shot实验显示了MM-REACT如何有效地解决其特定的感兴趣的能力。它已经证明在解决需要复杂视觉理解的各种高级视觉任务方面非常高效。作者分享了一些例子，其中MM-REACT能够解决图像上显示的线性方程。此外，它还能够通过命名图像中的产品及其成分等来进行概念理解。总之，这种系统范例很好地结合了语言和视觉专业知识，并能够实现高级视觉智能。