Press "Enter" to skip to content

这篇AI论文提出了COLT5:一种新的模型,用于处理长距离输入,采用条件计算以提高质量和速度

这篇AI论文提出了COLT5:一种新的模型,用于处理长距离输入,采用条件计算以提高质量和速度 四海 第1张这篇AI论文提出了COLT5:一种新的模型,用于处理长距离输入,采用条件计算以提高质量和速度 四海 第2张

机器学习模型需要对长篇文本进行编码,以用于各种自然语言处理任务,包括总结或回答关于长篇文档的问题。由于注意力成本随输入长度的增加呈二次增长,并且必须对每个输入标记应用前馈和投影层,使用Transformer模型处理长文本在计算上是昂贵的。近年来出现了几种“高效Transformer”策略,降低了对长输入的注意机制的开销。然而,前馈和投影层,尤其是对于更大的模型,承载着大部分的计算负载,并且可能使分析长输入变得不可能。本研究介绍了COLT5,这是一种新的模型系列,通过同时改进注意力和前馈层的架构,构建在LONGT5的基础上,实现对长输入的快速处理。

COLT5的基础是某些标记比其他标记更重要,并且通过为重要标记分配更多的计算资源,可以以较低的成本获得更高的质量。例如,COLT5将每个前馈层和每个注意力层分为轻量级分支和重量级分支,轻量级分支应用于所有标记,重量级分支用于选择特定输入和组件的重要标记。与常规的LONGT5相比,轻量级前馈分支的隐藏维度小于重量级前馈分支的隐藏维度。此外,随着文档长度的增加,重要标记的百分比会减少,从而实现对长文本的可管理处理。

这篇AI论文提出了COLT5:一种新的模型,用于处理长距离输入,采用条件计算以提高质量和速度 四海 第3张
图1:有条件计算的COLT5 Transformer层概述。

图1显示了COLT5条件机制的概述。由于COLT5的存在,LONGT5架构经历了两个进一步的变化。重量级注意力分支在一组精心选择的重要标记上执行完全的注意力,而轻量级注意力分支具有较少的头部并应用局部注意力。COLT5引入的多查询交叉注意力大大加速了推理。此外,COLT5使用UL2预训练目标,他们表明这可以实现对长输入的上下文学习。

来自Google Research的研究人员建议COLT5,这是一种用于处理远程输入的新型模型,利用有条件的计算来获得更好的性能和更快的处理速度。他们证明COLT5在arXiv摘要和TriviaQA问答数据集上优于LONGT5,在SCROLLS基准测试上达到了SOTA水平。COLT5针对“关注”标记的缩放不是线性的,大大提高了长输入任务的质量和性能。COLT5在相同或更好的模型质量下,进行微调和推理速度明显更快。COLT5中的轻量级前馈和注意力层适用于所有输入,而重量级分支只影响由学习路由器选择的一部分重要标记。他们证明COLT5在各种长输入数据集上优于LONGT5,并且能够成功高效地处理长达64k个标记的输入。

Leave a Reply

Your email address will not be published. Required fields are marked *