遇见LLaSM：一个端到端训练的大型多模态语音语言模型，具有跨模态对话能力，能够遵循语音和语言指令

遇见LLaSM：一个端到端训练的大型多模态语音语言模型，具有跨模态对话能力，能够遵循语音和语言指令四海第1张

语音比写作传递更多信息，因为它携带了语义和声音等语言信息。此外，与AI进行交流时，说话是一种更实用和有机的方式。因此，在创建通用助手时，遵循语音和语言的指导原则至关重要。然而，大多数大型语言模型只接受文本输入，限制了其潜力。尽管多模态视觉和语言模型在通用人工智能（AGI）方面取得了重大进展，但人类通过输入文本指令来输入任务仍然很繁琐。

级联范式方法使用自动语音识别（ASR）模型将语音输入转换为文本输入，然后模型可以利用该文本输入来处理任务。从语音到文本的模态转换仍然会导致信息消耗，并可能导入ASR系统错误。最近，具有处理和生成语音和文本的大型语言模型的语言语音多模态模型已能够理解和制作多模态信息。语音信号被分成不同的标记，并扩展到LLM的词汇中。从这个意义上说，LLM需要大量的多模态数据和强大的计算资源来重新训练。

本研究的来自LinkSoul.AI、北京大学和01.ai的作者建议LLaSM，这是一个具有跨模态对话能力的大型语音和语言模型，可以理解和遵守口头指令。他们使用训练有素的语音模态编码器和LLM，就像LLaVA一样，这使得LLaSM更加资源友好。他们专门使用Whisper作为音频编码器来整合语音信号。将大型语言模型的输入文本嵌入与使用模态适配器的语音嵌入进行匹配。为了创建交替的序列，将语音和文本嵌入组合在一起。然后将交替的序列馈送到LLM进行监督微调。

训练过程分为两个阶段。在初始阶段，他们使用公共ASR数据集进行模态适应预训练。只有模态适配器被训练以对齐语音和文本嵌入，LLM和语音编码器已被锁定。由于在这个阶段引入了模态适配器的一小部分参数，并且大部分模型参数仍需固定，因此不需要消耗大量资源。在第二步中，使用跨模态指令数据训练模型以处理多模态指令和分析跨模态交互。在进行跨模态教育时，语言模型和模态适配器的设置正在修改，而音频编码器则被冻结。

值得注意的是，目前很少有开源的语音-文本跨模态指令遵循数据集可用。因此，他们创建并发布了LLaSM-Audio-Instructions数据集。该数据集是通过精心选择GPT4-LLM、ShareGPT和WizardLM中的对话，并使用文本到语音技术创建大量的对话音频数据而生成的。据他们所知，这是最大的中英文语音-文本跨模态指令遵循数据集，包含19.9万个对话、8万个中文音频样本和42.8万个英文音频样本。

他们的研究贡献如下：

• 他们创建了一个能够理解和执行语音-语言指令的语音-语言多模态模型，为人们与人工智能进行交流提供了更实用和有机的方式。

• 他们创建并发布了LLaSM-Audio-Instructions，这是一个结合了中文和英文语音和文本的大型跨模态指令遵循数据集。

• 可以在HuggingFace在线上查看演示，并在GitHub上获取代码。