Transformer 编码器的文本分类

逐步解释如何利用Transformer编码器对文本进行分类

Photo by Mel Poole on Unsplash — Mel Poole在Unsplash上的照片

毫无疑问，Transformer是深度学习领域最重要的突破之一。该模型的编码器-解码器架构已被证明在跨领域应用中非常强大。

最初，Transformer仅用于语言建模任务，如机器翻译、文本生成、文本分类、问答等。然而，最近，Transformer也被用于计算机视觉任务，如图像分类、目标检测和语义分割。

鉴于Transformer的流行程度以及存在许多基于Transformer的复杂模型，如BERT、Vision-Transformer、Swin-Transformer和GPT系列，我们有必要了解Transformer架构的内部工作原理。

在本文中，我们将仅对Transformer的编码器部分进行解析，该部分主要用于分类目的。具体而言，我们将使用Transformer编码器对文本进行分类。废话不多说，让我们首先来看一下本文中要使用的数据集。

关于数据集

我们将使用的数据集是电子邮件数据集。您可以通过这个链接在Kaggle上下载该数据集。该数据集根据CC0：公共领域进行许可，这意味着您可以自由使用和分发该数据集。

import mathimport torchimport torch.nn as nnimport torchtextimport pandas as pdfrom sklearn.model_selection import train_test_splitfrom torch.utils.data import DataLoaderfrom tqdm import tqdmfrom torchtext.data.utils import get_tokenizerfrom torchtext.vocab import build_vocab_from_iteratordevice = torch.device("cuda" if torch.cuda.is_available() else "cpu")df = pd.read_csv('spam_ham.csv')df_train, df_test = train_test_split(df, test_size=0.2, random_state=42)print(df_train.head())# 输出'''     Category                                            Message1978     spam  Reply to win £100 weekly! Where will the 2006 ...3989      ham  Hello. Sort of out in town already. That . So ...3935      ham   How come guoyang go n tell her? Then u told her?4078…