这篇AI论文提出了COLT5：一种新的模型，用于处理长距离输入，采用条件计算以提高质量和速度

这篇AI论文提出了COLT5：一种新的模型，用于处理长距离输入，采用条件计算以提高质量和速度四海第1张

机器学习模型需要对长篇文本进行编码，以用于各种自然语言处理任务，包括总结或回答关于长篇文档的问题。由于注意力成本随输入长度的增加呈二次增长，并且必须对每个输入标记应用前馈和投影层，使用Transformer模型处理长文本在计算上是昂贵的。近年来出现了几种“高效Transformer”策略，降低了对长输入的注意机制的开销。然而，前馈和投影层，尤其是对于更大的模型，承载着大部分的计算负载，并且可能使分析长输入变得不可能。本研究介绍了COLT5，这是一种新的模型系列，通过同时改进注意力和前馈层的架构，构建在LONGT5的基础上，实现对长输入的快速处理。

COLT5的基础是某些标记比其他标记更重要，并且通过为重要标记分配更多的计算资源，可以以较低的成本获得更高的质量。例如，COLT5将每个前馈层和每个注意力层分为轻量级分支和重量级分支，轻量级分支应用于所有标记，重量级分支用于选择特定输入和组件的重要标记。与常规的LONGT5相比，轻量级前馈分支的隐藏维度小于重量级前馈分支的隐藏维度。此外，随着文档长度的增加，重要标记的百分比会减少，从而实现对长文本的可管理处理。

这篇AI论文提出了COLT5：一种新的模型，用于处理长距离输入，采用条件计算以提高质量和速度四海第3张 — **图1：**有条件计算的COLT5 Transformer层概述。

图1显示了COLT5条件机制的概述。由于COLT5的存在，LONGT5架构经历了两个进一步的变化。重量级注意力分支在一组精心选择的重要标记上执行完全的注意力，而轻量级注意力分支具有较少的头部并应用局部注意力。COLT5引入的多查询交叉注意力大大加速了推理。此外，COLT5使用UL2预训练目标，他们表明这可以实现对长输入的上下文学习。

来自Google Research的研究人员建议COLT5，这是一种用于处理远程输入的新型模型，利用有条件的计算来获得更好的性能和更快的处理速度。他们证明COLT5在arXiv摘要和TriviaQA问答数据集上优于LONGT5，在SCROLLS基准测试上达到了SOTA水平。COLT5针对“关注”标记的缩放不是线性的，大大提高了长输入任务的质量和性能。COLT5在相同或更好的模型质量下，进行微调和推理速度明显更快。COLT5中的轻量级前馈和注意力层适用于所有输入，而重量级分支只影响由学习路由器选择的一部分重要标记。他们证明COLT5在各种长输入数据集上优于LONGT5，并且能够成功高效地处理长达64k个标记的输入。