Press "Enter" to skip to content

苹果和Equall AI的一项新的人工智能研究揭示了Transformer架构中的冗余问题:如何优化前馈网络以提高效率和准确性

苹果和Equall AI的一项新的人工智能研究揭示了Transformer架构中的冗余问题:如何优化前馈网络以提高效率和准确性 四海 第1张苹果和Equall AI的一项新的人工智能研究揭示了Transformer架构中的冗余问题:如何优化前馈网络以提高效率和准确性 四海 第2张

最近流行起来的Transformer设计已经成为自然语言处理(NLP)活动,特别是机器翻译(MT)的标准方法。这种架构展示了令人印象深刻的扩展性,这意味着增加更多的模型参数会在各种NLP任务上获得更好的性能。许多研究和调查已经验证了这一观察结果。虽然Transformer在可扩展性方面表现出色,但也有一个并行的运动,旨在使这些模型在实际世界中更加高效和可部署。这涉及到处理延迟、内存使用和磁盘空间等问题。

研究人员一直在积极研究解决这些问题的方法,包括组件裁剪、参数共享和降维。广泛使用的Transformer架构包括许多重要部分,其中最重要的两个部分是前馈网络(FFN)和注意力。

  1. 注意力 – 注意机制允许模型在分析每个单词时捕捉句子中的关系和依赖,而不考虑它们的位置。它作为一种机制,帮助模型确定输入文本的哪些部分与其当前正在分析的每个单词最相关。理解短语中的单词之间的上下文和连接取决于这一点。
  1. 前馈网络(FFN):FFN负责对每个输入标记进行非线性转换。通过对每个单词的表示进行特定的数学运算,它为模型对每个单词的理解增加了复杂性和表达能力。

在最近的研究中,一组研究人员专注于研究Transformer架构中的FFN的作用。他们发现FFN在作为模型的一个大组件时存在很高的冗余,并消耗大量的参数。他们发现,即使显著减少了模型的参数数量,也不会对准确性造成重大影响。他们通过从解码器层中删除FFN,而是在编码器层之间使用一个共享的FFN来实现这一点。

  1. 解码器层:标准Transformer模型中的每个编码器和解码器都有自己的FFN。研究人员删除了解码器层中的FFN。
  1. 编码器层:他们使用一个单独的FFN,该FFN由所有编码器层共享,而不是为每个编码器层提供单独的FFN。

研究人员分享了采用这种方法带来的好处,如下所示。

  1. 参数减少:通过删除和共享FFN组件,他们大大减少了模型中的参数数量。
  1. 尽管删除了大量参数,但模型的准确性仅略有降低。这表明编码器的多个FFN和解码器的FFN存在一定程度的功能冗余。
  1. 缩小规模:他们扩大了共享FFN的隐藏维度,以恢复架构的先前尺寸,同时保持或甚至提高模型的性能。与之前的大规模Transformer模型相比,这在准确性和模型处理速度(延迟)方面取得了显著的改进。

总之,这项研究表明,在Transformer设计中,特别是在解码器层中,前馈网络可以简化并共享,而不会对模型性能造成重大影响。这不仅减轻了模型的计算负载,还提高了其在各种NLP应用中的效果和适用性。

Leave a Reply

Your email address will not be published. Required fields are marked *