微软AI发布LLaVA-Med：一个高效训练的大型语言和视觉助手，革新生物医学研究，在不到15小时内提供先进的多模式对话

微软AI发布LLaVA-Med：一个高效训练的大型语言和视觉助手，革新生物医学研究，在不到15小时内提供先进的多模式对话机器学习第1张

对于医学专业人员来说，会话式生成人工智能有很大的潜力，但目前的研究仅侧重于文本。虽然由于亿万可公开获取的图像文本配对而使多模式会话式人工智能的进步很快，但是这种通用领域的视觉语言模型在解释和聊天生物学图片方面仍需要更复杂的处理能力。微软研究团队提出了一种低成本的方法，用于教授视觉语言会话助手如何回答有关生物医学图像的自由形式查询。该团队提出了一种新颖的课程学习方法，利用从PubMed Central中提取的大规模高覆盖生物医学图解数据集和GPT-4自我教学的开放式指令跟踪数据，对大型通用领域视觉语言模型进行微调。

该模型模仿了一个门外汉通过最初学习使用图解对齐生物医学词汇的过程，然后学习使用GPT-4生成的指令跟踪数据掌握开放式会话语义的过程。在不到15个小时的时间内（使用八个A100），研究人员可以训练出一款适用于生物医学领域的大型语言和视觉助手（LLaVA-Med）。由于其多模式会话能力和遵循自由形式指令的能力，LLaVA-Med非常适合回答关于生物图像的问题。经过微调后，LLaVA-Med取得了三个基准生物医学视觉问答数据集的最新成果。关于人们如何遵循指令以及LLaVA-Med模型的数据将被公开以推进生物医学领域的多模式研究。

该团队的主要贡献总结如下：

多模式医学训练合规统计。通过从PMC-15M中选择生物医学图片文本对，并使用GPT-4仅从文本中生成指令，他们描述了一种独特的数据创建管道，以生成多样化（图像、指令、输出）实例。
LLaVA-Med。使用自行生成的生物医学多模式指令跟踪数据集，他们提供了一种新颖的课程学习方法，以使LLaVA适应生物医学领域。
开源。生物医学多模式指令跟踪数据集以及用于数据生成和模型训练的软件将公开提供，以促进生物医学多模式学习的进一步研究。

LLaVA-Med的有效性和获得的多模式生物医学指令跟踪数据的准确性是该团队调查的重点。研究人员考虑两种不同的环境来评估研究：

LLaVA-Med作为通用生物医学视觉聊天机器人的效果有多好？
与现有技术相比，LLaVA-Med在行业基准测试中的表现如何？

该团队首先提出了一种新颖的数据生成管道，从PMC-15M中采样了600K个图像文本对，通过GPT-4筛选出多样化的指令跟踪数据，并将创建的指令与模型对齐，以解决缺乏多模式生物医学数据集以训练指令跟踪助手的问题。

研究人员随后介绍了一种教授LLaVA-Med课程的新方法。具体而言，他们在广泛的领域中训练LLaVA多模式会话模型，并逐渐将重点转向生物医学领域。训练过程分为两个阶段：

指定生物医学概念词嵌入与大量创新生物视觉概念的相关图像属性对齐。
使用基于生物医学语言图像指令的微调模型，LLaVA-Med展现了令人印象深刻的零样本任务转移能力，促进了自然用户互动。

总的来说

微软研究团队开发了适用于生物医学领域的大型语言和视觉模型LLaVA-Med。他们使用自我教学策略通过语言生成技术GPT-4和外部知识构建了数据筛选管道。然后，他们将模型训练到高质量的生物医学语言-图像指令跟踪数据集上。LLaVA-Med在微调后在三个VQA数据集上的特定指标上打败了早期受监督的SoTA，展现了具有领域知识的出色对话能力。虽然LLaVA-Med是朝着正确方向迈出的一大步，但他们也认识到它存在幻觉和推理缺乏深度的问题，这在许多LMMs中都很普遍。未来的工作将致力于使事物更加可靠和高质量。