Press "Enter" to skip to content

这项人工智能研究介绍了BOFT 一种新的通用微调人工智能方法,用于基础模型的适应性调整

“`html

在人工智能领域,尤其是大型语言模型的引入,最近取得了许多发展,为几乎所有领域铺平了AI的道路。ChatGPT和Stable Diffusion等基础模型具有显著的泛化能力。然而,由于参数数量的增加,从头开始训练这些模型是一个挑战。

微调模型的方法非常简单,因为它不涉及任何额外的推理延迟。然而,传统微调技术难以理想地维护权重矩阵的关系信息,这些技术具有较低的学习速率。研究人员一直在研究正交微调(OFT)技术,该技术通过使用相同正交矩阵对同一层中的神经元进行转换,在微调过程中保持神经元之间的成对角度。虽然这种技术具有很大的潜力,但也存在同样的局限性,即正交矩阵的高维度导致了庞大的可训练参数数量。

为了解决这个挑战,一组研究人员提出了正交蝴蝶(BOFT)方法,这是一种独特且最新的方法,解决了正交微调中的参数效率问题。BOFT受到Cooley-Tukey快速傅里叶变换技术中蝴蝶结构的启发,通过将其与许多分解稀疏矩阵组装在一起,生成稠密的正交矩阵。为了将正交矩阵表示为稀疏矩阵的乘积,需要以计算时间为代价来节省空间。

研究团队指出,通过将其比作一个网格结构图上的信息传输问题,可以理解这种技术,这使得可以使用多种保持表达能力的稀疏矩阵分解技术,同时限制可训练参数的数量。BOFT受到了Cooley-Tukey方法的蝴蝶图的启发,其主要创新在于蝴蝶分解过程。

借助这种分解,可以创建一个含有O(log d)个稀疏矩阵的稠密矩阵,每个稀疏矩阵具有O(d)个非零元素。BOFT可以通过保证每个稀疏矩阵的正交性,以O(d log d)的参数数量提供高效的正交参数化,从而显著减少了原始OFT参数化的数量。BOFT提供了一个通用的正交微调框架,并包含OFT。

研究团队将BOFT与OFT中的块对角结构进行了比较,并且已经证明为了降低有效可训练参数,BOFT和OFT都给正交矩阵增加了稀疏性。但对于下游应用,BOFT的蝴蝶结构提供了正交群矩阵和单位矩阵之间更平滑的插值的较小假设类别。为了强调低秩矩阵和稀疏矩阵都是实现参数效率的结构化矩阵的家族,该结构化方法已与LoRA中的低秩结构进行了比较。

研究人员总结了他们的主要贡献如下:

  1. 研究了正交微调中参数效率的问题,以提高大型模型对下游任务的适应性。
  1. 引入了一种用于信息传输的新框架,将构建参数高效稠密正交矩阵的挑战转化为网格结构图内的问题。
  1. 引入了一种参数效率的正交微调方法-正交蝴蝶(BOFT)。
  1. 讨论了矩阵分解以及BOFT为什么能够显著降低可训练参数,同时保持表达能力和训练稳定性的理论解释。
  1. BOFT在适应应用中表现出色,表明其具有卓越的参数效率和泛化能力,优于目前的技术水平。

“`

Leave a Reply

Your email address will not be published. Required fields are marked *