Press "Enter" to skip to content

变形金刚 — 直观而全面的解释

探索现代机器学习的浪潮:逐步分解Transformer

Image by author using MidJourney. All images by the author unless otherwise specified.

在这篇文章中,您将了解到transformer架构,在几乎所有尖端大型语言模型的核心。我们将从一些相关的自然语言处理概念的简要时间表开始,然后逐步分解transformer并揭示其工作原理。

这对谁有用? 所有对自然语言处理(NLP)感兴趣的人。

这篇文章有多高级? 这不是一篇复杂的文章,但有很多概念,因此对于经验较少的数据科学家可能会有些困难。

先决条件: 对标准神经网络有很好的工作理解。对嵌入、编码器和解码器有一些初步的经验可能也会有所帮助。

NLP发展简要历程

在深入了解transformer之前,以下几个部分包含了一些有用的概念和技术。如果您感到自信,可以随意跳过。

词向量嵌入

对词向量嵌入的概念理解几乎是理解自然语言处理的基础。本质上,词向量嵌入将单词转化为某种表示其含义的向量。

词到向量嵌入的工作:将单词转换为某种方式捕捉其一般含义的数字。

具体细节可能因具体实现而异,但最终结果可以被看作是一个“单词空间”,该空间符合某些便捷的关系。对单词进行计算很困难,但包含有关单词信息以及它们与其他单词的关系的向量,进行数学计算要容易得多。这个将单词转换为向量的任务通常被称为“嵌入”。

Word2Vect是自然语言处理领域的里程碑性论文,它旨在创建一个符合某些有用特性的嵌入。基本上…

Leave a Reply

Your email address will not be published. Required fields are marked *