Press "Enter" to skip to content

在Colab笔记本中微调您自己的Llama 2模型

LLM细调实用入门

作者提供的图片

随着LLaMA v1的发布,我们看到了对模型进行细调的庞大增长,包括Alpaca、Vicuna和WizardLM等。这一趋势鼓励了不同的企业推出适用于商业用途的自己的基础模型,如OpenLLaMA、Falcon、XGen等。现在,Llama 2的发布将两个方面的最佳元素结合在一起:它提供了一个高效的基础模型和一个更宽松的许可证。

2023年上半年,软件领域显著受到了广泛使用API(如OpenAI API)基于大型语言模型(LLMs)创建基础设施的影响。LangChain和LlamaIndex等库在这一趋势中起到了关键作用。进入年后半段,微调这些模型将成为LLMOps工作流程中的标准过程。这一趋势受到了各种因素的推动:节省成本的潜力、处理机密数据的能力,甚至在某些特定任务中开发超越ChatGPT和GPT-4等知名模型性能的潜力。

在本文中,我们将看到为什么微调有效以及如何在Google Colab笔记本中实现它来创建自己的Llama 2模型。和往常一样,代码可以在Colab和GitHub上找到。

🔧 LLM微调背景

作者提供的图片

LLMs在广泛的文本语料库上进行预训练。在Llama 2的情况下,我们对训练集的组成几乎一无所知,只知道其长度为2万亿个标记。相比之下,BERT(2018年)只在BookCorpus(8亿个单词)和英文维基百科(25亿个单词)上进行了训练。从经验上看,这是一个非常昂贵且耗时的过程,还存在很多硬件问题。如果你想了解更多信息,我推荐阅读Meta关于OPT-175B模型的预训练日志。

当预训练完成后,像Llama 2这样的自回归模型可以在序列中预测下一个标记。然而,这并不意味着它们可以…

Leave a Reply

Your email address will not be published. Required fields are marked *