约翰内斯·开普勒大学研究人员推出 GateLoop：利用线性递归和数据控制状态转换推进序列建模

“`html

来自约翰内斯·开普勒大学的研究员引入了GateLoop，这是一种新颖的序列模型，利用线性递归的潜力进行高效的长序列建模。它广义了线性递归模型并在自回归语言建模中表现出色。GateLoop在引入一种代理注意力模式方面提供了低成本的递归和高效的并行模式，这对Transformer架构具有潜在影响。它为注意力提供了数据控制的相对位置信息，强调了数据控制的累积乘积在更具鲁棒性的序列模型中的重要性，超越了现有模型中使用的传统累积和。

GateLoop是一种通用的序列模型，通过采用数据控制的状态转换扩展了线性递归模型（如S4、S5、LRU和RetNet）。GateLoop在自回归语言建模方面表现出色，提供了成本效益的递归和高效的并行模式。它引入了一种代理注意力模式，对Transformer架构具有影响。研究讨论了前缀累积乘积的预计算、操作符的关联性和非数据控制参数化等关键因素。GateLoop通过WikiText103数据集的较低困惑度得到了实证验证。现有模型未充分利用线性递归的潜力，而GateLoop通过数据控制的转换和复杂的累积乘积解决了这个问题。

具有长程依赖的序列在机器学习中面临挑战，传统上使用递归神经网络（RNN）来解决。然而，RNN面临梯度消失和爆炸的问题，对于较长的序列，这会影响它们的稳定性。LSTM和GRU等门控变体缓解了这些问题，但必须更有效。Transformer引入了全局依赖的注意力机制，消除了递归。尽管它们能够进行高效的并行训练和全局成对依赖，但其二次复杂度限制了对长序列的使用。线性递归模型（LRMs）提供了一种替代方案，而GateLoop作为一种基础序列模型通过数据控制的状态转换，具有广义化了LRMs的特点，在自回归语言建模方面有出色的表现，并提供了多样化的操作模式。

GateLoop提供了高效的O(l)递归模式、优化的O(llog2l)并行模式和O(l2)的代理注意力模式，将数据控制的相对位置信息提供给注意力。在WikiText-103基准测试中的实验验证了GateLoop在自回归自然语言建模方面的卓越性能。合成任务验证了数据控制状态转换相比非数据控制状态转换的实证优势。关键要素包括前缀累积乘积的预计算和非数据控制参数化，以防止变量膨胀。

GateLoop是一种完全数据控制的线性RNN，通过数据控制输入、输出和状态转换的门控方式扩展了现有的线性递归模型。它在自回归语言建模方面表现出色，优于其他模型。GateLoop的机制为注意力提供了相对位置信息，并可以以等效的代理注意力模式进行重新构造，复杂度为O(l2)。实证结果验证了完全数据控制线性递归在自回归语言建模中的有效性。该模型可以输入依赖地忘记记忆，为相关信息腾出空间。未来的研究方向包括探索不同的初始化策略、振幅和相位激活以及提高学习状态转换的可解释性。

“`