Press "Enter" to skip to content

认识LQ-LoRA:一种LoRA的变种,允许低秩量化矩阵分解,以实现高效的语言模型微调

在人工智能迅猛发展的时代,大型语言模型(LLMs)的引入改变了机器与人类相互交互的方式。最近几个月,LLMs的数量呈指数增长,具备令人难以置信的能力和超先进的算法。像GPT 3.5、GPT 4、LLaMa、PaLM等模型在自然语言理解(NLU)、处理、翻译、摘要甚至内容生成方面展示了一些卓越的人类仿真能力。

这些LLMs是通过大量数据进行训练的。然而,当这些模型需要适应新数据集时,就会遇到挑战。研究人员通常在将这些庞大的LLMs适应新数据集时面临问题,因为全面微调的开销和内存需求很高。为解决LLM微调中的内存效率问题,最近一个研究团队提出了参数高效微调的方法。

通过学习原先预训练模型的较小、微调扩展,这些技术可以降低微调所需的内存量。低秩适应(LoRA)是一种受欢迎的有效LLM调整策略,它涉及重新参数化预训练模型的权重矩阵,仅微调其两个组成部分,即L1和L2,其余组成部分保持不变。

研究人员通过将LoRA应用于量化的预训练模型来增强其内存效率。为了节省内存,量化降低了模型的参数精度,如果量化显著,则零初始化可能不是最优选择。为了克服量化误差,团队提出了一种称为LQ-LoRA的LoRA变种。

LQ-LoRA通过一种受主成分分析(PCA)影响的迭代技术,将权重矩阵分解为量化组件Q和低秩组件L1L2。在LQ-LoRa中,L1和L2在适应过程中得到改进,并捕获了初始权重矩阵的高方差子空间。

团队表示,该方法使用整数线性规划来找到混合量化方法,以解决将同一量化配置应用于所有层的问题。通过给定总体期望比特率,该技术允许为每个矩阵分配不同的配置,包括比特数和块大小。

团队使用LQ-LoRA修改了不同大小的RoBERTa和LLaMA-2模型,分别是7B和70B。结果表明,LQ-LoRA比GPTQ-LoRA和强QLOrA基线表现更好。通过将2.5比特的LLaMA-2模型训练在OpenAssistant基准上,与使用4比特QLoRA微调的模型具有竞争力,表明建议的方法允许更激进的量化。

此外,通过调整数据校准语言模型,LQ-LoRA在模型压缩方面也表现出良好的性能。尽管比特率降低,但团队能够生成与完全精度下的原始模型具有竞争力的2.75比特LLaMA-2-70B模型。这表明该建议的方法可以大幅减少大型语言模型的内存需求,而不会牺牲特定活动的功能。

总而言之,LQ-LoRA是语言模型发展的一个重要转折点。其内存高效适应和数据感知考虑,以及动态量化参数调整,肯定会在人工智能领域引起范式转变。

Leave a Reply

Your email address will not be published. Required fields are marked *