Press "Enter" to skip to content

3 search results for "Devlin et al. (2019)"

利用预训练的语言模型检查点来构建编码器-解码器模型

基于Transformer的编码器-解码器模型最初在Vaswani等人(2017)的论文中提出,并最近引起了广泛的关注,例如Lewis等人(2019),Raffel等人(2019),Zhang等人(2020),Zaheer等人(2020),Yan等人(2020)。 与BERT和GPT2类似,大规模预训练的编码器-解码器模型已经显示出在各种序列到序列任务上显著提升性能(Lewis等人,2019;Raffel等人,2019)。然而,由于预训练编码器-解码器模型所需的巨大计算成本,这类模型的开发主要局限于大型公司和研究机构。 在《利用预训练检查点进行序列生成任务》(2020)一文中,Sascha Rothe、Shashi Narayan和Aliaksei Severyn使用预训练的编码器和/或解码器检查点(如BERT、GPT2)初始化编码器-解码器模型,跳过了昂贵的预训练过程。作者表明,这种热启动的编码器-解码器模型在训练成本的一小部分情况下,能够产生与T5和Pegasus等大规模预训练编码器-解码器模型相竞争的结果,适用于多个序列到序列任务。 在本笔记本中,我们将详细解释如何热启动编码器-解码器模型,并根据Rothe等人(2020)提供实用提示,最后通过一个完整的代码示例展示如何使用🤗Transformers来热启动编码器-解码器模型。 本笔记本分为4个部分: 介绍 – 简要介绍NLP中的预训练语言模型以及热启动编码器-解码器模型的需求。 热启动编码器-解码器模型(理论) – 对编码器-解码器模型如何进行热启动进行说明。 热启动编码器-解码器模型(分析) – 《利用预训练检查点进行序列生成任务》的总结 哪些模型组合对于热启动编码器-解码器模型有效?它在不同任务中有何不同? 使用🤗Transformers热启动编码器-解码器模型(实践) – 完整的代码示例,详细展示如何使用EncoderDecoderModel框架来热启动基于Transformer的编码器-解码器模型。 强烈推荐(可能甚至是必须的)阅读有关基于Transformer的编码器-解码器模型的博客文章。 让我们从对热启动编码器-解码器模型的背景介绍开始。 介绍 最近,预训练语言模型1…

Leave a Comment

Can't find what you're looking for? Try refining your search: