Press "Enter" to skip to content

4 search results for "PEGASUS"

释放领域特定LLMs的潜力

介绍 大型语言模型(LLMs)已经改变了整个世界。特别是在人工智能社区中,这是一个巨大的飞跃。几年前,建立一个能够理解和回复任何文本的系统是不可想象的。然而,这些能力是以牺牲深度为代价的。通才型的LLMs是万能的,但却无所专精。对于需要深度和精确性的领域来说,如幻觉等缺陷可能是代价高昂的。这是否意味着医学、金融、工程、法律等领域永远无法享受到LLMs的好处?专家们已经开始构建专门针对这些领域的专用领域LLMs,利用了与自监督学习和RLHF相同的基本技术。本文探讨了专用领域LLMs及其产生更好结果的能力。 学习目标 在我们深入技术细节之前,让我们概述本文的学习目标: 了解大型语言模型(LLMs)的概念,了解它们的优势和好处。 了解流行通才型LLMs的局限性。 了解什么是专用领域LLMs以及它们如何帮助解决通才型LLMs的局限性。 探索构建专用领域语言模型的不同技术,并通过示例展示它们在法律、代码补全、金融和生物医学等领域的性能优势。 本文作为数据科学博文的一部分发表。 什么是LLMs? 大型语言模型(LLM)是一个包含数亿到数千亿个参数的人工智能系统,旨在理解和生成文本。训练过程涉及将模型暴露于来自互联网文本(包括书籍、文章、网站和其他书面材料)的许多句子,并教导它预测句子中的掩码词或后续词。通过这样做,模型学习了其训练文本中的统计模式和语言关系。它们可以用于各种任务,包括语言翻译、文本摘要、问答、内容生成等。自从Transformer被发明以来,已经构建和发布了无数个LLMs。最近流行的LLMs的一些例子包括Chat GPT、GPT-4、LLAMA和Stanford Alpaca,它们取得了突破性的性能。 LLMs的优势 LLMs已经成为语言理解、实体识别、语言生成等问题的首选解决方案。在GLUE、Super GLUE、SQuAD和BIG基准测试等标准评估数据集上取得的出色表现反映了这一成就。BERT、T5、GPT-3、PALM和GPT-4发布时都在这些标准测试中取得了最先进的结果。GPT-4在BAR和SAT等方面的得分超过了普通人。下图(图1)显示了大型语言模型出现以来在GLUE基准测试中的显著改进。 大型语言模型的另一个主要优势是其改进的多语言能力。例如,训练了104种语言的多语言BERT模型在不同语言上展现出了很好的零-shot和few-shot结果。此外,利用LLMs的成本变得相对较低。出现了一些低成本的方法,如提示设计和提示调整,可以确保工程师可以以较低的成本轻松利用现有的LLMs。因此,大型语言模型已成为基于语言的任务的默认选择,包括语言理解、实体识别、翻译等。 通才型LLMs的局限性 大多数流行的LLMs,如上述提到的那些,是训练于互联网文本、书籍、维基百科等各种文本资源的通才型LLMs。这些LLMs有多种应用,包括搜索助手(使用GPT-4的Bing Chat,使用PALM的BARD)、内容生成任务(如编写营销邮件、营销内容和销售演讲稿)以及问答任务(如个人聊天机器人、客户服务聊天机器人等)。 尽管通才型人工智能模型在理解和生成各种主题的文本方面表现出色,但它们有时需要更深入、更细致的专业领域知识。例如,“债券”是金融行业的一种借贷形式。然而,通用语言模型可能无法理解这个独特的短语,并将其与化学中的债券或两个人之间的债券混淆。相反,专门针对特定使用案例的LLMs对与特定行业相关的术语有专门的理解,能够正确解释行业特定的概念。 此外,通用语言模型(LLMs)存在多个隐私挑战。例如,在医学LLMs的情况下,患者数据非常重要,将此类机密数据暴露给通用LLMs可能会违反隐私协议,因为RLHF等技术的存在。另一方面,专业领域的LLMs采用封闭框架,以避免数据泄露。 同样,通用LLMs容易出现严重的幻觉问题,因为它们往往是为创意写作而量身定制的。而专业领域的LLMs在领域特定的基准测试中表现更加精确,并且性能显著更好,如下面的应用案例所示。 专业领域的LLMs 在特定领域的数据上训练的LLMs被称为专业领域的LLMs。领域这个术语可以涵盖从特定领域(如医学、金融等)到特定产品(如YouTube评论)的任何内容。专业领域的LLMs旨在在领域特定的基准测试上表现最佳;通用基准测试不再关键。构建专用语言模型的方法有多种。最常见的方法是将现有的LLMs进行微调以适应特定领域的数据。然而,对于追求在利基领域中达到最先进性能的用例来说,预训练才是正确的选择。…

Leave a Comment

利用预训练的语言模型检查点来构建编码器-解码器模型

基于Transformer的编码器-解码器模型最初在Vaswani等人(2017)的论文中提出,并最近引起了广泛的关注,例如Lewis等人(2019),Raffel等人(2019),Zhang等人(2020),Zaheer等人(2020),Yan等人(2020)。 与BERT和GPT2类似,大规模预训练的编码器-解码器模型已经显示出在各种序列到序列任务上显著提升性能(Lewis等人,2019;Raffel等人,2019)。然而,由于预训练编码器-解码器模型所需的巨大计算成本,这类模型的开发主要局限于大型公司和研究机构。 在《利用预训练检查点进行序列生成任务》(2020)一文中,Sascha Rothe、Shashi Narayan和Aliaksei Severyn使用预训练的编码器和/或解码器检查点(如BERT、GPT2)初始化编码器-解码器模型,跳过了昂贵的预训练过程。作者表明,这种热启动的编码器-解码器模型在训练成本的一小部分情况下,能够产生与T5和Pegasus等大规模预训练编码器-解码器模型相竞争的结果,适用于多个序列到序列任务。 在本笔记本中,我们将详细解释如何热启动编码器-解码器模型,并根据Rothe等人(2020)提供实用提示,最后通过一个完整的代码示例展示如何使用🤗Transformers来热启动编码器-解码器模型。 本笔记本分为4个部分: 介绍 – 简要介绍NLP中的预训练语言模型以及热启动编码器-解码器模型的需求。 热启动编码器-解码器模型(理论) – 对编码器-解码器模型如何进行热启动进行说明。 热启动编码器-解码器模型(分析) – 《利用预训练检查点进行序列生成任务》的总结 哪些模型组合对于热启动编码器-解码器模型有效?它在不同任务中有何不同? 使用🤗Transformers热启动编码器-解码器模型(实践) – 完整的代码示例,详细展示如何使用EncoderDecoderModel框架来热启动基于Transformer的编码器-解码器模型。 强烈推荐(可能甚至是必须的)阅读有关基于Transformer的编码器-解码器模型的博客文章。 让我们从对热启动编码器-解码器模型的背景介绍开始。 介绍 最近,预训练语言模型1…

Leave a Comment

Can't find what you're looking for? Try refining your search: