变形金刚 — 直观而全面的解释

探索现代机器学习的浪潮：逐步分解Transformer

在这篇文章中，您将了解到transformer架构，在几乎所有尖端大型语言模型的核心。我们将从一些相关的自然语言处理概念的简要时间表开始，然后逐步分解transformer并揭示其工作原理。

这对谁有用？ 所有对自然语言处理（NLP）感兴趣的人。

这篇文章有多高级？ 这不是一篇复杂的文章，但有很多概念，因此对于经验较少的数据科学家可能会有些困难。

先决条件： 对标准神经网络有很好的工作理解。对嵌入、编码器和解码器有一些初步的经验可能也会有所帮助。

在深入了解transformer之前，以下几个部分包含了一些有用的概念和技术。如果您感到自信，可以随意跳过。

对词向量嵌入的概念理解几乎是理解自然语言处理的基础。本质上，词向量嵌入将单词转化为某种表示其含义的向量。

具体细节可能因具体实现而异，但最终结果可以被看作是一个“单词空间”，该空间符合某些便捷的关系。对单词进行计算很困难，但包含有关单词信息以及它们与其他单词的关系的向量，进行数学计算要容易得多。这个将单词转换为向量的任务通常被称为“嵌入”。

Word2Vect是自然语言处理领域的里程碑性论文，它旨在创建一个符合某些有用特性的嵌入。基本上…