Search Results for “Devlin et al. (2019)”

基于Transformer的编码器-解码器模型最初在Vaswani等人（2017）的论文中提出，并最近引起了广泛的关注，例如Lewis等人（2019），Raffel等人（2019），Zhang等人（2020），Zaheer等人（2020），Yan等人（2020）。与BERT和GPT2类似，大规模预训练的编码器-解码器模型已经显示出在各种序列到序列任务上显著提升性能（Lewis等人，2019；Raffel等人，2019）。然而，由于预训练编码器-解码器模型所需的巨大计算成本，这类模型的开发主要局限于大型公司和研究机构。在《利用预训练检查点进行序列生成任务》（2020）一文中，Sascha Rothe、Shashi Narayan和Aliaksei Severyn使用预训练的编码器和/或解码器检查点（如BERT、GPT2）初始化编码器-解码器模型，跳过了昂贵的预训练过程。作者表明，这种热启动的编码器-解码器模型在训练成本的一小部分情况下，能够产生与T5和Pegasus等大规模预训练编码器-解码器模型相竞争的结果，适用于多个序列到序列任务。在本笔记本中，我们将详细解释如何热启动编码器-解码器模型，并根据Rothe等人（2020）提供实用提示，最后通过一个完整的代码示例展示如何使用🤗Transformers来热启动编码器-解码器模型。本笔记本分为4个部分：介绍 – 简要介绍NLP中的预训练语言模型以及热启动编码器-解码器模型的需求。热启动编码器-解码器模型（理论） – 对编码器-解码器模型如何进行热启动进行说明。热启动编码器-解码器模型（分析） – 《利用预训练检查点进行序列生成任务》的总结哪些模型组合对于热启动编码器-解码器模型有效？它在不同任务中有何不同？使用🤗Transformers热启动编码器-解码器模型（实践） – 完整的代码示例，详细展示如何使用EncoderDecoderModel框架来热启动基于Transformer的编码器-解码器模型。强烈推荐（可能甚至是必须的）阅读有关基于Transformer的编码器-解码器模型的博客文章。让我们从对热启动编码器-解码器模型的背景介绍开始。介绍最近，预训练语言模型1…

3 search results for "Devlin et al. (2019)"

比较自然语言处理技术：RNNs, Transformers, BERT

利用预训练的语言模型检查点来构建编码器-解码器模型

T5：文本到文本的转换器（第二部分）