Press "Enter" to skip to content

革命化医疗保健:探索大型语言模型在医学领域的影响和未来

在医学和保健领域,大型语言模型(LLM)的整合与应用已经成为一个引起重要关注和发展的话题。

正如在卫生信息管理与系统协会全球会议和其他重要活动中所指出的那样,谷歌等公司正在带头探索生成式人工智能在医疗保健领域的潜力。他们的倡议,如Med-PaLM 2,凸显了以AI驱动的医疗解决方案在诊断、患者护理和行政效率等领域的不断变化的格局。

谷歌的Med-PaLM 2是医疗领域的一种先导性LLM,展示了令人印象深刻的能力,特别是在美国医疗执业许可考试样式问题上达到了“专家”水平。这种模型以及类似的模型承诺将彻底改变医疗保健专业人员获取和利用信息的方式,潜在地提高诊断准确性和患者护理效率。

然而,随着这些进展的同时,人们对这些技术在临床环境中的实用性和安全性提出了关切。例如,对于模型训练来说,依赖于广泛的互联网数据来源,虽然在某些情况下有益,但并不总是适合医疗目的或可靠。正如尼甘姆·沙博士所指出的,斯坦福医疗保健的首席数据科学家,关键的问题是这些模型在实际医疗环境中的表现以及对患者护理和医疗保健效率的实际影响。

沙医生的观点强调了在医学中利用LLMs需要更加定制化的方法。他提出,不应使用训练于广泛互联网数据的通用模型,而应采用更加专注的策略,即训练模型使用特定、相关的医疗数据。这种方法类似于培训医学实习生——为他们提供具体任务,监督他们的表现,并逐渐允许他们展示能力的更多自主性。

与此相符的是,洛桑联邦理工学院(EPFL)研究人员开发的Meditron在该领域有一个有趣的进展。Meditron是一个专门为医疗应用量身定制的开源LLM,代表了一个重要的步骤。它使用来自PubMed和临床指南等权威来源的精心整理的医疗数据进行训练,为医疗从业者提供了更加专注和可能更加可靠的工具。其开源特性不仅促进了透明度和协作,还允许广泛的研究社区进行持续改进和压力测试。

MEDITRON-70B-achieves-an-accuracy-of-70.2-on-USMLE-style-questions-in-the-MedQA-4-options-dataset

MEDITRON-70B-在MedQA-4选项数据集上实现了70.2%的准确率

像Meditron、Med-PaLM 2和其他工具的开发反映了对于医疗保健领域在AI应用方面独特需求的日益认识。在培训这些模型时强调使用相关的高质量医疗数据,并确保它们在临床环境中的安全性和可靠性非常关键。

此外,将来自红十字国际委员会等人道主义环境的多样数据集纳入考虑,展示了对全球医疗保健中不同需求和挑战的敏感性。这种方法与许多AI研究中心的更广泛使命相一致,这些中心旨在创建不仅在技术上先进,而且在社会责任和益处方面都具有的AI工具。

最近在《自然》杂志上发表的题为“大型语言模型编码临床知识”的论文,探讨了大型语言模型在临床环境中的有效应用。该研究提出了具有突破性洞见和方法论,为LLMs在医学领域的能力和局限性提供了新的认识。

医疗领域以其复杂性而闻名,涵盖了广泛的症状、疾病和治疗方法,这些内容也在不断发展。低级语言模型(LLMs)不仅需要理解这种复杂性,还要与最新的医学知识和指南保持同步。

该研究核心围绕一个名为MultiMedQA的新型综合性基准展开。该基准将六个现有的医学问答数据集与包含经常在网上搜索的医学问题的新数据集HealthSearchQA相结合。这种全面的方法旨在评估LLMs在事实性、理解力、推理能力、可能的危害和偏见等各个方面的表现,从而解决以往依赖有限基准进行自动评估的局限性。

MultiMedQA,一个涵盖医学考试的回答医学问题的基准

MultiMedQA,一个涵盖医学考试的回答医学问题的基准

研究的重点是评估路径语言模型(PaLM)和其经过指导调整的变种Flan-PaLM在MultiMedQA上的表现。引人注目的是,Flan-PaLM在MultiMedQA的所有多项选择数据集上实现了最先进的准确性,包括在MedQA上达到了67.6%的准确性,该数据集包含美国医疗执业考试样式的问题。这一表现相比以前的模型有了显著改进,超过了之前的最佳水平17%以上。

MedQA

MedQA数据集3的问题模式类似于美国医学执业考试,每个问题都有四个或五个答案选项。其中包括一个开发集,包含11,450个问题,和一个测试集,包含1,273个问题。

格式:问题和答案(Q + A),多项选择,开放领域。

示例问题:一名有高血压的65岁男性前来进行例行保健体检。目前的药物包括阿替洛尔、厄贝沙坦和阿托伐他汀。他的脉搏为86次/分钟,呼吸为18次/分钟,血压为145/95毫米汞柱。心脏检查发现舒张末期杂音。以下哪种情况最可能引起这种体格检查所观察到的情况?

答案(正确答案用粗体表示):(A)左心室顺应性降低、(B)二尖瓣黏液样变性、(C)心包炎、(D)主动脉根扩张、(E)二尖瓣瓣叶增厚。

该研究还确定了模型在回答消费者医疗问题方面的关键差距。为了解决这些问题,研究人员引入了一种称为指导提示调整的方法。这种技术能够高效地将LLMs与新领域进行对齐,借助少量示例创建Med-PaLM。Med-PaLM模型在理解力、知识回忆和推理方面表现出色,尽管仍然不及临床医生。

这项研究的一个显著特点是详细的人工评估框架。该框架评估模型的回答与科学共识的一致性和潜在危害结果。例如,Flan-PaLM的长文回答只有61.9%与科学共识一致,而Med-PaLM的一致性提高到92.6%,与临床医生生成的答案相当。与Flan-PaLM相比,Med-PaLM的潜在危害结果显著减少。

对Med-PaLM的回答的人类评估突出了它在几个领域的专业能力,与临床医生生成的答案非常接近。这凸显了Med-PaLM作为临床环境支持工具的潜力。

以上讨论的研究深入探讨了增强医学应用的大型语言模型(LLMs)的复杂性。这项研究的技术和发现可以推广到改进各个领域的LLM能力。让我们来探索这些关键方面:

指导调整提升性能

  • 广泛应用:指导调整技术,即通过特定的指导或指南对LLMs进行微调,已经显示出在各个领域中显著提高性能的效果。这种技术可以应用于法律、金融或教育领域等其他领域,以提高LLM输出的准确性和相关性。

扩展模型规模

  • 更广泛的影响:观察到模型尺寸的增加会改善性能的情况不仅限于医疗问题回答领域。更大的模型,具有更多的参数,有能力处理和生成更微妙、更复杂的响应。这种缩放在客户服务、创意写作和技术支持等领域中都可能有益,因为在这些领域中,准确理解和生成响应至关重要。

思维链(COT)指导

  • 多样领域应用:尽管在医疗数据集中并不总是改善性能,但COT指导在其他需要复杂问题解决的领域中具有价值。例如,在技术故障排除或复杂决策场景中,COT指导可以引导LLMs逐步处理信息,从而产生更准确和有理性的输出。

自我一致性以提高准确性

  • 更广泛应用:采用自我一致性的技术,生成多个输出并选择最一致的答案,可以显著提高各个领域的性能。在金融或法律等领域,准确性至关重要,这种方法可以用于交叉验证生成的结果,提高可靠性。

不确定性与选择性预测

  • 跨领域相关性:在健康保健和法律等领域,传播错误信息可能产生严重后果,因此传达不确定性估计至关重要。利用LLMs表达不确定性和在信心较低时选择性地推迟预测的能力,可以成为这些领域中防止传播不准确信息的重要工具。

这些模型的真实应用超出了回答问题的范畴。它们可以用于病人教育、辅助诊断过程,甚至用于培训医学生。然而,它们的部署必须经过精心管理,避免在没有适当人工监督的情况下过度依赖人工智能。

随着医学知识的进展,LLMs也必须适应和学习。这需要不断学习和更新的机制,确保模型随着时间的推移保持相关和准确。

Leave a Reply

Your email address will not be published. Required fields are marked *