见面梅迪特龙：基于LLaMA-2的一套开源医疗大语言模型（LLMs）

最令人振奋的大型语言模型（LLM）应用之一是在医学领域的运用，其中一些用例包括医学研究、个性化健康计划、临床诊断等等。然而，考虑到该领域的安全性问题，有必要在各种用例中对这些模型进行安全测试，以确保它们可安全使用。此外，这些模型应该向公众发布，以供审查。

因此，一组研究人员发布了一组名为 MediTron 的LLM，它们是基于 LLaMA-2 的领域适应型模型。该模型有两个变体 – 一个带有 7B 参数，另一个带有 70B 参数。MediTron 是一个基础模型，可用于使用 RLHF 或指令调节进行特定的下游任务，其一些用例包括医学考试答题、一般健康问题、疾病信息查询以及支持差异诊断。

MediTron 的训练数据集非常全面，包括临床实践指南、医学论文及其摘要以及一般领域的预训练数据。采用了 Megatron-LLM 分布式训练库来优化训练效率，并使用数据、管道和张量并行化方案来加快进程。

研究人员对模型的真实性进行了初步评估。

他们使用了 TruthfulQA 数据集作为基准，并对 7B 模型进行了单次评估和对 70B 模型进行了零次评估。两个模型都表现出比其他模型更好的表现，MediTron-70B 的平均得分为 71.2，而 LLaMA-2-70B 的得分为 54.8；MediTron-7B 的平均得分为 28.3，而 LLaMA-2-7B 的得分为 12.6。

对于随后的评估，研究人员使用了诸如 MedQA、PubMedQA 等多个测试基准，并计算了多项选择题回答任务的准确性。为了比较结果，他们还使用了不同的LLM，如LLaMA-7B、LLaMA-70B、Mistral-7B-instruct 等。结果显示，MediTron-7B 和 MediTron-70B 在几乎每个数据集上都优于竞争对手，展示了其卓越的能力。

见面梅迪特龙：基于LLaMA-2的一套开源医疗大语言模型（LLMs）四海第3张-四海吧

尽管该模型已经在大量医学数据上进行了训练，并在多个基准测试中表现出色，但用户应该意识到其局限性，并且不应在没有附加测试的情况下在医疗应用中使用。研究人员刚刚开始了解该模型的能力和限制，并因此警告目前不要在医疗系统中使用它。

总之，MediTron 是一组专门针对领域的LLM，它们已经在广泛的医学数据集上进行了训练。它有两个变体，一个带有 7B 参数，一个带有 70B 参数，两者都比其他考虑中的模型表现更好。研究人员还提到，考虑到该领域的重要性，该模型不应在没有进一步培训的情况下部署。总体而言，该模型是医学领域的一项令人兴奋的发展，并有潜力解决一系列医学任务并帮助医务人员。