分层注意力更快
本文要求您具备对标准变压器及其工作原理的了解。如果您是初学者,想了解有关变压器的信息,请参阅Transformer入门文章。
在分层变压器——第1部分中,我们定义了“分层变压器”的含义,并回顾了这个领域的一项重要工作,称之为Hourglass。
在本文中,我们将继续探究另一个着名的作品——分层注意力变压器(HAT)。
让我们开始吧。
分层注意力变压器(HAT)
该方法最初是为了对长文档进行分类而提出的,这些文档通常有成千上万字。这种情况广泛应用于对法律文件或生物医学文件进行分类。
标记化和分段
HAT方法通过使用字节对编码(BPE)标记器对输入文档进行标记化,将文本分解为子词/标记。此标记器在许多知名的大型语言模型中使用,例如BERT,RoBERTA和GPT系列。
然后将标记化的文档分割成N个等长的块;即如果S表示输入文档,则S = [C1, …., CN]是N个等长的块。(在本文中,有时我们将块称为段落,但它们是同一个概念。)每个块是由k个标记组成的序列Ci = [Wi[cls], Wi1…, Wik-1],其中第一个标记Wi[cls]是代表该块的CLS标记。
如上图所示,每个块都是由k个标记组成的序列,其中第一个标记是CLS标记。
模型架构
在对输入序列进行标记化和分段之后,将其传入HAT变压器模型。HAT模型是一个编码器-变压器,由两个主要组件组成:
- 段落编码器(SWE):这是一个共享的编码器块,接受一个段落(也称为块)的序列并处理该块。
- 跨段落编码器(CSE):这是另一个编码器块,接受所有段落(也称为块)的CLS标记并处理跨段落的关系。