在医学论文上微调LLaMA 认识PMC-LLaMA-A模型，它在生物医学问答基准测试中取得了高性能

在医学论文上微调LLaMA 认识PMC-LLaMA-A模型，它在生物医学问答基准测试中取得了高性能四海第1张

大型语言模型（LLM）的发展，例如OpenAI的ChatGPT和GPT-4，在自然语言处理、计算机视觉和生物医学等许多领域中重塑了人工智能。不幸的是，ChatGPT的训练细节和其变体的模型架构仍然未知。虽然LLaMA是一个开源的基础语言模型，但据推测，它在需要广泛领域知识的应用中表现不佳，是由于在模型预训练阶段缺乏领域特定数据引起的。

许多研究一直在讨论修改和使用开源LLM来实现专门目的。例如，Alpaca和Vicuna专注于通过训练模型以遵守自动创建的指令示例来扩展模型的交互能力。

上海交通大学和上海人工智能实验室最近的一项工作采用了一种不同的方法，将领域知识注入到单个预训练的LLaMA中，以将基础语言模型引导到医学专用语料库。他们介绍了PMC-LLaMA，这是一个公开可用的语言模型，通过在480万篇医学学术论文上对LLaMA-7B进行改进开发而成。团队认为，在医学讨论和咨询中，一个以医学为重点的基础语言模型会有更多的益处。

团队从S2ORC数据集开始，该数据集包含81.1M篇英文学术论文，并根据其PubMed Central（PMC）ID对其进行了排序。因此，约有490万篇论文，总计超过750亿个标记与医学知识高度相关。通过优化GPT2中首次提出的自回归生成目标，他们在这些免费的PMC论文上对LLaMA-7B模型进行了微调。他们采用bf16（脑浮点）数据格式和完全分片数据并行（FSDP）加速方法来加快学习过程。

团队通过对上述相关的医学问答数据集进行三种不同类型的微调来测试PMC-LLaMA：完全微调、参数高效微调和数据高效微调。实验结果表明，当微调指令调整时，PMC-LLaMA在医学领域中优于LLaMA和其他使用LLaMA微调指令训练的模型。

PMC-LLaMA的一个缺点是，这480万篇论文中并不包含每个标记，因为迄今为止他们只进行了五个时期的训练。在未来，他们计划逐步训练具有更多参数的PMC-LLaMA模型，持续训练PMC-LLaMA，并更新hugging face页面上的基础模型。