Press "Enter" to skip to content

上海人工智能实验室和麻省理工学院的研究人员公布了层次化门控循环神经网络(RNN):高效长期依赖建模的新领域

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-05-at-3.51.10-PM-1024×594.png”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screenshot-2023-12-05-at-3.51.10-PM-150×150.png”/><p>上海人工智能实验室和MIT CSAI的研究人员开发了层次化门控循环神经网络(HGRN)技术,它通过将遗忘门加入线性RNN中,解决了增强序列建模的挑战。其目的是使上层能够捕捉长期依赖关系,同时允许下层专注于短期依赖关系,特别是处理非常长的序列时。</p><p>该研究探讨了Transformers在序列建模中的优势,由于并行训练和长期依赖能力,但同时也注意到了使用线性RNN进行高效序列建模的兴趣再度增加,强调了遗忘门的重要性。它考虑了线性递归和长卷积作为处理长序列的自注意力模块的替代方法,并强调了长卷积中的挑战。论文还探讨了RNN在建模长期依赖性和使用门控机制方面的局限性。</p><p>序列建模在自然语言处理、时间序列分析、计算机视觉和音频处理等各个领域都至关重要。在Transformers问世之前,RNN经常被使用,但面临训练速度慢和建模长期依赖关系的挑战。Transformers在并行训练方面表现出色,但对于长序列具有二次时间复杂度。</p><p>该研究提出了用于高效序列建模的HGRN模型,由具有令牌和通道混合模块的堆叠层组成。线性递归层中的遗忘门使得上层能够建模长期依赖性,而下层能够建模局部依赖性。令牌混合模块采用了受状态空间模型启发的输出门和投影。门控机制和动态衰减率解决了梯度消失问题。在语言建模、图像分类和长距离基准测试中的评估结果表明了HGRN的高效性和有效性。</p><p>所提出的HGRN模型在自回归语言建模、图像分类和长距离基准测试中表现出色。在语言任务中,它优于高效变体的原始Transformer、基于多层感知机和基于RNN的方法,与原始Transformer的性能相当。在常识推理和Super GLUE等任务中,它在使用更少令牌的情况下与基于Transformer的模型相匹配。HGRN在处理长期依赖性方面在长距离基准测试中取得了有竞争力的结果。在ImageNet-1K图像分类中,HGRN优于先前的方法(如TNN和原始Transformer)。</p><p>总之,HGRN模型在各种任务和模态中都证明了其高度有效性,包括语言建模、图像分类和长距离基准测试。其使用遗忘门以及对其值的下界设置使得对长期依赖关系的高效建模成为可能。在语言任务中,HGRN优于变体的原始Transformer、基于多层感知机和基于RNN的方法,并在ImageNet-1K图像分类中表现出色,超过了TNN和原始Transformer等方法。</p><p>HGRN模型的未来发展方向包括在各个领域和任务中进行广泛的探索,以评估其泛化能力和有效性。研究不同超参数和架构变化的影响旨在优化模型的设计。通过评估额外的基准数据集并与最先进的模型进行比较,可以进一步验证其性能。将探索辅助注意力或其他门控机制等潜在改进方法,以增强对长期依赖关系的捕捉。将研究更长序列的可扩展性以及并行扫描实现的益处。对可解释性的进一步分析旨在深入了解决策过程并提高透明度。</p>

Leave a Reply

Your email address will not be published. Required fields are marked *