Press "Enter" to skip to content

多模态医疗人工智能

由Google Research的Head of Health AI Greg Corrado和VP of Engineering and Research Yossi Matias发布

医学是一门内在多模态的学科。在提供护理时,临床医生通常会解读来自各种模式的数据,包括医学影像、临床记录、实验室检验、电子健康记录、基因组学等等。在过去十年左右的时间里,人工智能系统已经在特定模态的特定任务上实现了专家级的表现。一些人工智能系统处理CT扫描,另一些分析高倍镜病理切片,还有一些寻找罕见的基因变异。这些系统的输入往往是复杂的数据,比如图像,它们通常会提供结构化的输出,无论是以离散等级还是密集图像分割掩码的形式。与此同时,大型语言模型(LLMs)的能力和功能已经非常先进,它们通过解释和用简单的语言回应来展示了对医学知识的理解和专业知识。但是,我们如何将这些能力结合起来构建能够利用所有这些信息的医学人工智能系统呢?

在今天的博客文章中,我们概述了将多模态能力引入LLMs的一系列方法,并分享了在构建多模态医学LLMs方面的一些令人兴奋的结果,如最近的三篇研究论文所描述的。这些论文依次说明了如何将全新模态引入LLMs,如何将先进的医学成像基础模型嫁接到对话式LLMs上,以及构建真正通用的多模态医学人工智能系统的第一步。如果成功发展,多模态医学LLMs可能成为跨专业医学、医学研究和消费者应用的新辅助技术的基础。与我们之前的工作一样,我们强调需要与医疗社区和医疗生态系统合作,对这些技术进行仔细评估。

一系列方法

近几个月提出了建立多模态LLMs的几种方法[1, 2, 3],毫无疑问,新的方法将继续涌现出来。为了了解将新模态引入医学人工智能系统的机会,我们将考虑三种广义的方法:工具使用、模型嫁接和通用系统。

多模态医疗人工智能 四海 第1张
建立多模态LLMs的方法从LLMs使用现有工具或模型到利用领域特定组件与适配器的融合建模,涵盖了各种方法。

工具使用

在工具使用的方法中,一个中心医学LLM将各种模态的数据分析外包给一组针对这些任务进行独立优化的软件子系统:工具。常见的工具使用示例是教会LLM使用计算器而不是自己进行算术运算。在医学领域,面对胸部X射线的医学LLM可以将图像转发给放射学AI系统并整合其响应。这可以通过子系统提供的应用程序编程接口(APIs)完成,或者更加奇特的是,不同专业领域的两个医学人工智能系统之间进行对话。

这种方法有一些重要的好处。它允许子系统之间的最大灵活性和独立性,使健康系统能够根据子系统的验证性能特征在技术提供商之间进行产品混搭。此外,子系统之间的人类可读通信渠道最大化了可审核性和调试性。然而,正确地在独立子系统之间进行沟通可能是棘手的,会限制信息传递,或者暴露出错误沟通和信息丢失的风险。

模型嫁接

更加集成的方法是将每个相关领域的专门神经网络取出,使其直接插入LLM中,将视觉模型嫁接到核心推理代理中。与工具使用不同,工具使用的具体工具由LLM决定,而在模型嫁接中,研究人员可以选择在开发过程中使用、改进或开发特定的模型。在Google Research的两篇最近论文中,我们展示了这是可行的。神经LLMs通常通过首先将单词映射到向量嵌入空间来处理文本。这两篇论文都基于将新模态的数据映射到已经熟悉的LLM输入词嵌入空间的思想。第一篇论文“以个体特定数据为基础的医学多模态LLMs”表明,如果我们首先训练一个神经网络分类器来解释肺活量检查(用于评估呼吸能力的一种模态)的数据,然后将该网络的输出调整为LLM的输入,可以提高在英国生物库中对哮喘风险的预测。

第二篇论文 “ELIXR: 通过大型语言模型和放射学视觉编码器的对齐实现通用的X射线人工智能系统” 采用了相同的策略,但将其应用于放射学中的全尺度图像编码器模型。从一个用于理解胸部X射线的基础模型开始,已经证明可以用来构建该模态下各种分类器的良好基础。该论文描述了训练一个轻量级的医学信息适配器,将基础模型的顶层输出重新表达为LLM输入嵌入空间中的一系列标记。尽管没有微调视觉编码器或语言模型,但所得到的系统展示了它未经训练的能力,包括语义搜索和视觉问答。

多模态医疗人工智能 四海 第2张
我们的模型嫁接方法通过训练一个医学信息适配器,将现有或改进的图像编码器的输出映射到LLM可理解的形式。

模型嫁接具有许多优点。它使用相对较少的计算资源来训练适配器层,但允许LLM在每个数据域中建立在现有高度优化和验证的模型基础之上。将问题模块化为编码器、适配器和LLM组件也可以在开发和部署此类系统时方便地进行单独软件组件的测试和调试。相应的缺点是专业编码器与LLM之间的通信不再可读(成为一系列高维向量),并且嫁接过程需要为不仅仅是每个特定领域编码器,还包括每个编码器的每个修订版本构建新的适配器。

通用系统

多模式医学AI的最激进方法是构建一个集成的、完全通用的系统,能够本地地吸收来自所有来源的信息。在我们在这个领域的第三篇论文 “Towards Generalist Biomedical AI” 中,我们不再为每个数据模态构建单独的编码器和适配器,而是基于最近发表的多模态模型 PaLM-E,它本身是单一LLM(PaLM)和单一视觉编码器(ViT)的组合。在这种设置中,文本和表格数据模态由LLM文本编码器处理,而所有其他数据都被视为图像并输入到视觉编码器中。

多模态医疗人工智能 四海 第3张
Med-PaLM M 是一个大型多模态生成模型,可以灵活地编码和解释包括临床语言、成像和基因组在内的生物医学数据,使用相同的模型权重。

我们通过在论文中描述的医学数据集上对完整模型参数进行微调,将 PaLM-E 专门化到医学领域。由此得到的通用医学AI系统是 Med-PaLM 的多模态版本,我们称之为 Med-PaLM M。灵活的多模态序列到序列架构使我们能够在单个交互中交织各种类型的多模态生物医学信息。据我们所知,这是第一个演示单一统一模型可以解释多模态生物医学数据并使用相同的模型权重处理各种任务的实例(论文中有详细评估)。

这种多模态的通用系统方法是我们描述的方法中最有雄心壮志和同时最优雅的方法。从原则上讲,这种直接方法最大限度地增加了模态之间的灵活性和信息传输。由于没有需要维护跨多个模态的兼容性的API和适配器层的增加,通用方法具有最简单的设计。但是,同样的优雅也是一些缺点的源头。计算成本往往较高,而且由于一个统一的视觉编码器服务于多种模态,领域专业化或系统的调试能力可能会受到影响。

多模态医疗AI的现实

为了充分利用医疗AI,我们需要将专家系统的强大性能与生成AI所提供的灵活性相结合。哪种方法(或方法的组合)在实践中最有用,取决于众多尚未评估的因素。通用模型的灵活性和简单性是否比模型移植或工具使用的模块化更有价值?哪种方法对于支持医学研究或医学教育与增强医疗实践有不同的优势?回答这些问题需要进行持续的严格实证研究,并与医疗保健提供者、医疗机构、政府实体和广泛的医疗行业合作伙伴进行直接的合作。我们期待与大家一起找到答案。

Leave a Reply

Your email address will not be published. Required fields are marked *