预训练语言模型(PLMs)的引入标志着自然语言处理领域的一次变革性转变。它们在执行各种语言任务时表现出了卓越的熟练度,包括自然语言理解(NLU)和自然语言生成(NLG)。这些模型通常包含数百万甚至数十亿个参数,因此需要大量的计算和内存。然而,这些模型的巨大计算和内存需求带来了重大挑战,得到了研究界的认可。
在这篇论文中,作者介绍了一种名为LoRA-Fine-Tuning-aware Quantization(LoftQ)的新型量化框架。该框架专门针对需要量化和LoRA微调的预训练模型而设计。该框架通过联合逼近原始的高精度预训练权重,积极地结合低秩近似和量化。
上述图像展示了QLoRA在不同位数下的性能。左图:在WikiText-2上对LLAMA-2-13b进行QLoRA初始化。右图:将QLoRA应用于WikiText-2的LLAMA-2-13b语言建模任务。较小的困惑度表示较好的性能。
量化方法。我们应用了两种量化方法来证明LoftQ与不同的量化函数兼容:
• 均匀量化是一种经典的量化方法。它将连续区间均匀地分为2N个类别,并存储一个离散化的局部最大绝对值。
• NF4及其2位变体NF2是QLoRA中使用的量化方法。它们假设高精度值来自一个高斯分布,并将这些值映射到具有相等概率的离散槽位上。
我们对所有模型进行了2位和4位的量化,分别实现了25-30%和15-20%的压缩比。所有实验都在NVIDIA A100 GPU上进行。
通过在各种下游任务(包括NLU、问答、摘要和NLG)上进行大量实验,对他们的量化框架进行了评估。这些实验的结果表明,在所有精度水平上,LoftQ始终优于QLoRA。例如,通过4位量化,他们的XSum和CNN/DailyMail的Rouge-1分别提高了1.1和0.8。随着自然语言处理领域的不断发展,有望通过进一步的创新和优化来弥合PLMs的巨大潜力与实际部署之间的差距,使广泛的应用和用户受益。