在医疗保健领域弥合临床医生和语言模型之间的鸿沟：介绍MedAlign，一种由临床医生生成的用于遵循电子病历的数据集

在医疗保健领域弥合临床医生和语言模型之间的鸿沟：介绍MedAlign，一种由临床医生生成的用于遵循电子病历的数据集四海第1张

大型语言模型（LLMs）以很大程度上利用了自然语言处理的能力。从语言生成和推理到阅读理解，LLMs都能胜任。这些模型在帮助医生工作方面的潜力引起了多个领域，包括医疗保健的关注。最近的LLMs，包括Med-PaLM和GPT-4，在涉及医学问答的任务中表现出了他们的熟练程度，特别是涉及医学数据库和考试的任务。

一个常见的限制是难以确定LLMs在受控基准测试中出色的表现是否能够转化到实际的临床环境中。临床医生在医疗行业中进行各种与信息相关的工作，这些工作经常需要来自电子健康记录（EHRs）的复杂、非结构化的数据。医疗从业者所面对的复杂性和复杂性在当前可用的EHR数据问答数据集中没有很好地体现出来。当医生依靠LLMs来帮助他们时，他们缺乏评估这些模型能否提供准确和具有上下文意识的回复所需的细微差别。

为了克服这些限制，一组研究人员开发了MedAlign，这是一个基准数据集，包括15名从事7个不同医学专业的临床医生提交的共983个问题和指令。MedAlign专注于基于EHR的指令-回答配对，而不仅仅是问题-回答配对，这使其与其他数据集不同。该团队为其中303个指令提供了由临床医生撰写的参考回答，并将其与EHR数据相链接，以提供提示的上下文和基础。每个临床医生对这303个指令上六种不同LLMs生成的回答进行了评估和排名，以确认数据集的可靠性和质量。

临床医生还提供了他们自己的黄金标准解决方案。通过收集包括临床医生提供的指令、LLM生成回答的专家评估以及相关的EHR上下文的数据集，MedAlign开创了一项开拓性的工作。这个数据集与其他数据集的不同之处在于它为评估LLMs在临床情况下的工作效果提供了一个有用的工具。

第二个贡献展示了一种自动化的、检索式的方法，用于将相关的患者电子健康记录与临床指令匹配。为了实现这一点，该团队创建了一个程序，使向临床医生索取指令更加高效和可扩展。他们可以通过隔离这种指令征集方法从更大、更多样化的临床医生群体中寻求提交。

他们甚至评估了他们的自动化方法与相关EHR匹配的效果。研究结果显示，与指令与EHR的随机配对相比，这种自动匹配过程在74%的情况下成功提供了相关的配对。这一结果突显了自动化提高连接临床数据的效果和准确性的机会。

最后一个贡献考察了自动化自然语言生成（NLG）参数与临床医生对LLM生成回答的评级之间的关系。这项研究旨在确定是否可以使用可扩展的自动化指标来对LLM回答进行排序，以取代专业临床医生的评估。该团队旨在通过衡量人类专家排序与自动化标准之间的一致程度，减少医生在未来研究中手动识别和评估LLM回答的需求。通过使审查过程更加高效且不那么依赖人力资源，为医疗应用开发和改进LLMs的进程可能会加快。