这项人工智能研究提出了DISC-MedLLM：一种综合解决方案，利用大型语言模型（LLMs）提供准确的医疗响应

这项人工智能研究提出了DISC-MedLLM：一种综合解决方案，利用大型语言模型（LLMs）提供准确的医疗响应四海第1张

远程医疗的兴起改变了医疗的提供方式，打开了专业网络，降低了价格，并允许进行远程医疗咨询。此外，智能医疗系统通过添加医疗信息提取、药物推荐、自动诊断和健康问题解答等功能，改进了在线医疗服务。虽然在构建智能医疗系统方面取得了一些进展，但早期研究集中在特定问题或疾病上，具有狭窄的应用范围，导致实验性进展与实际应用之间存在差距。为了弥合这一差距，需要提供更广泛的医疗场景的完整解决方案，并为消费者提供最高品质的端到端对话式医疗服务。

近期，大型语言模型展示了与人类进行有意义对话和遵循指令的惊人能力。这些进展为开发医疗咨询系统创造了新的机会。然而，涉及医疗咨询的情况通常更为复杂，超出了通用领域的语言模型的范围。图1展示了一个真实世界医疗咨询的示例。它展示了两个特点。首先，需要全面可信的医疗知识来理解对话并在每个阶段做出适当回应。通用领域的语言模型提供与特定情况无关的输出，存在主要的幻觉问题。

其次，通常需要进行多轮对话才能获得足够了解患者情况以提供医疗咨询的知识，并且每个对话轮次都有一个明确的目标。然而，通用领域的语言模型在用户健康状况的具体问题上往往具有有限的多轮查询能力，并且是单轮代理。基于这两点发现，复旦大学、西北工业大学和多伦多大学的研究人员认为，医疗语言模型应该对全面可信的医疗知识进行编码，同时符合真实世界医疗对话的分布特征。受到指令调整的成功启发，他们研究如何构建高质量的监督微调数据集，用于训练医疗语言模型，并包括医学知识和咨询行为模式。

在实际应用中，他们使用三种不同的方法创建样本：

• 基于医疗知识图的样本开发。根据从真实世界咨询数据集中收集的患者查询分布，他们使用以科室为导向的方法从医疗知识网络中选择知识三元组。然后使用GPT-3.5为每个三元组创建问答对。结果得到了50k个样本。

• 重建真实对话。为了改善语言模型，从医疗论坛收集的咨询记录是合适的数据源。这些文档中使用的语言是非正式的，术语的呈现方式不一致，各种医疗从业者的表达风格各异。因此，他们使用GPT-3.5使用实际案例重新创建对话。结果得到了420k个样本。

• 样本收集后，进行人工选择。他们从涵盖各种咨询设置的真实医疗对话记录中手动选择了一小组条目，并重新编写了某些示例以符合人类意图。他们还确保每个对话的整体质量在人工引导重建后得到保证。结果得到了2k个样本。然后，使用新创建的SFT数据集在拥有13B个参数的通用领域中文语言模型的基础上，通过两阶段训练过程训练DISC-MedLLM。他们从两个角度评估模型的性能，以确定其在多轮对话中提供系统咨询和在单轮对话中提供准确回复的能力。

这项人工智能研究提出了DISC-MedLLM：一种综合解决方案，利用大型语言模型（LLMs）提供准确的医疗响应四海第3张 — 图1：患者和真实医生之间对话的示例。医生回应中提到的医学实体由蓝色高亮文本标示。每一轮，医生的行为显示特定的意图：（1）在第一轮，进行更多的研究以收集有助于确定潜在情景的数据；（2）在第二轮，进行初步诊断并提出明确建议；（3）在第三轮，根据医疗状况提供具体的治疗选择。

他们从三个公共医学数据集中收集了一系列多项选择题，并使用该题库对单轮对话进行了模型准确性评估。对于多轮对话评估，他们首先使用GPT-3.5创建了一小组优秀咨询案例，模拟患者与模型进行对话。然后使用GPT-4评估模型的主动性、准确性、有用性和语言质量。实验结果显示，尽管不及GPT-3.5，但DISCMedLLM在参数相同的情况下平均超过了医学大规模华佗GPT 10%。

此外，在模拟医学咨询环境中，DISC-MedLLM的整体表现优于基准模型，如GPT-3.5、华佗GPT和扁鹊。DISC-MedLLM在涉及医学部门和患者意图的案例中表现出色，并超过了其他中文医学LLM。