Press "Enter" to skip to content

字节对编码入门指南’ (Zìjié duì biānmǎ rùmén zhǐnán)

用简单明了的语言解释BPE分词器的插图指南

作者提供的图像

在本文中,我们将介绍一种最著名的标记化算法,即字节对编码(BPE)。它在许多最先进的大型语言模型中使用,例如BERT系列,BART和GPT系列。

让我们开始吧。

字节对编码(BPE)

字节对编码(BPE)是一种基于语料库的子词标记化算法它是基于语料库的,因为它使用训练语料库来学习常见字符(或符号)并将它们合并为一个符号。它是一个子词标记器,因为它将文本拆分为比词(或相等)更小的单元。

下图显示了在句子“it is raining”上的子词标记化。请注意,“it”和“is”是完整的词标记;“rain”和“ing”是从“raining”中的子词。

字节对编码入门指南' (Zìjié duì biānmǎ rùmén zhǐnán) 四海 第2张

BPE算法有两个主要部分:标记学习器和标记分段器。

1- 标记学习器:它接收一段文本语料库,并创建一个包含标记的词汇表。这段文本作为训练语料库。

标记学习器接收一段文本语料库并构建词汇表 - 作者提供的图像

2- 标记分段器:它接收一个文本片段,例如句子,并将其分段为标记。这个文本是测试数据。我们在这一步中利用前一步所获得的学习结果对测试数据进行标记化。

标记分段器将句子转换为其标记 - 作者提供的图像

值得一提的是:

“字节对编码(BPE)(Gage,1994)是一种旧的数据压缩技术,它迭代地用一个未使用的单个字节替换序列中最常见的一对字节。”[1]

我们现在所了解的BPE标记化算法,采用了这个算法,但是不是合并频繁的字节对,而是合并频繁的字符(或……

Leave a Reply

Your email address will not be published. Required fields are marked *