Press "Enter" to skip to content

见面梅迪特龙:基于LLaMA-2的一套开源医疗大语言模型(LLMs)

最令人振奋的大型语言模型(LLM)应用之一是在医学领域的运用,其中一些用例包括医学研究、个性化健康计划、临床诊断等等。然而,考虑到该领域的安全性问题,有必要在各种用例中对这些模型进行安全测试,以确保它们可安全使用。此外,这些模型应该向公众发布,以供审查。

因此,一组研究人员发布了一组名为 MediTron 的LLM,它们是基于 LLaMA-2 的领域适应型模型。该模型有两个变体 – 一个带有 7B 参数,另一个带有 70B 参数。MediTron 是一个基础模型,可用于使用 RLHF 或指令调节进行特定的下游任务,其一些用例包括医学考试答题、一般健康问题、疾病信息查询以及支持差异诊断。

MediTron 的训练数据集非常全面,包括临床实践指南、医学论文及其摘要以及一般领域的预训练数据。采用了 Megatron-LLM 分布式训练库来优化训练效率,并使用数据、管道和张量并行化方案来加快进程。

研究人员对模型的真实性进行了初步评估。

他们使用了 TruthfulQA 数据集作为基准,并对 7B 模型进行了单次评估和对 70B 模型进行了零次评估。两个模型都表现出比其他模型更好的表现,MediTron-70B 的平均得分为 71.2,而 LLaMA-2-70B 的得分为 54.8;MediTron-7B 的平均得分为 28.3,而 LLaMA-2-7B 的得分为 12.6。

对于随后的评估,研究人员使用了诸如 MedQA、PubMedQA 等多个测试基准,并计算了多项选择题回答任务的准确性。为了比较结果,他们还使用了不同的LLM,如LLaMA-7B、LLaMA-70B、Mistral-7B-instruct 等。结果显示,MediTron-7B 和 MediTron-70B 在几乎每个数据集上都优于竞争对手,展示了其卓越的能力。

尽管该模型已经在大量医学数据上进行了训练,并在多个基准测试中表现出色,但用户应该意识到其局限性,并且不应在没有附加测试的情况下在医疗应用中使用。研究人员刚刚开始了解该模型的能力和限制,并因此警告目前不要在医疗系统中使用它。

总之,MediTron 是一组专门针对领域的LLM,它们已经在广泛的医学数据集上进行了训练。它有两个变体,一个带有 7B 参数,一个带有 70B 参数,两者都比其他考虑中的模型表现更好。研究人员还提到,考虑到该领域的重要性,该模型不应在没有进一步培训的情况下部署。总体而言,该模型是医学领域的一项令人兴奋的发展,并有潜力解决一系列医学任务并帮助医务人员。

Leave a Reply

Your email address will not be published. Required fields are marked *