近年来,生成式人工智能研究的发展改变了我们的工作方式。通过生成式人工智能,我们可以开发内容、规划工作、寻找答案,甚至创作艺术作品,所有这些都成为可能。然而,每个模型通常适用于特定的用例,例如,GPT用于文本到文本的转换,稳定扩散用于文本到图像的转换,以及其他许多用途。
能够执行多个任务的模型被称为多模态模型。许多最前沿的研究都朝着多模态方向发展,因为在许多情况下已被证明是有用的。这就是为什么关于多模态的令人兴奋的研究之一是NExT-GPT。
NExT-GPT是一个可以将任何事物转换为任何事物的多模态模型。那么,它是如何工作的呢?让我们进一步探索一下。
NExT-GPT简介
NExT-GPT是一种任意到任意的多模态LLM,可以处理四种不同类型的输入和输出:文本、图像、视频和音频。这项研究由新加坡国立大学的研究小组NExT++发起。
NExT-GPT模型的整体表示如下所示。
NExT-GPT模型由以下三个部分组成:
- 建立各种模态的输入的编码器,并将其表示为LLM可以接受的类似语言的输入,
- 利用开源的LLM作为核心,对输入进行语义理解和推理,并添加独特的模态信号,
- 将多模态信号提供给不同的编码器,并生成适当模态的结果。
NExT-GPT演绎过程的示例可以在下图中看到。
从上图可以看出,根据我们想要的任务,编码器和解码器会切换到适当的模态。这个过程只能发生,因为NExT-GPT利用了一种称为模态切换指令调整的概念,使模型能够符合用户的意图。
研究人员试验了各种模态组合。总体而言,NExT-GPT的性能可以总结如下图所示。
NExT-GPT在输入文本和音频以生成图像方面的表现最佳,其次是输入文本、音频和图像以生成图像结果。最不理想的操作是输入文本和视频以生成视频输出。
NExT-GPT的能力示例如下图所示。
上述结果显示,与NExT-GPT交互可以生成符合用户意图的音频、文本和图像。可以看出NExT-GPT的表现相当不错,也相当可靠。
NExT-GPT的另一个示例如下图所示。
上图显示NExT-GPT可以处理两种类型的模态,生成文本和音频输出。这展示了该模型的多样性。
如果您想尝试该模型,您可以从他们的GitHub页面设置模型和环境。此外,您还可以在以下页面上尝试演示。
结论
NExT-GPT 是一个多模型模型,它接受输入数据并以文本、图像、音频和视频的形式产生输出。该模型通过利用特定编码器对模态进行处理,并根据用户意图切换到适当的模态。性能实验结果显示出良好的效果和有前途的工作,可以应用于许多应用程序。
[Cornellius Yudha Wijaya](https://www.linkedin.com/in/cornellius-yudha-wijaya/) 是一名数据科学助理经理和数据作家。他在全职工作于 Allianz Indonesia 的同时,热衷于通过社交媒体和写作媒体分享 Python 和数据技巧。