Press "Enter" to skip to content

释放领域特定LLMs的潜力

介绍

大型语言模型(LLMs)已经改变了整个世界。特别是在人工智能社区中,这是一个巨大的飞跃。几年前,建立一个能够理解和回复任何文本的系统是不可想象的。然而,这些能力是以牺牲深度为代价的。通才型的LLMs是万能的,但却无所专精。对于需要深度和精确性的领域来说,如幻觉等缺陷可能是代价高昂的。这是否意味着医学、金融、工程、法律等领域永远无法享受到LLMs的好处?专家们已经开始构建专门针对这些领域的专用领域LLMs,利用了与自监督学习和RLHF相同的基本技术。本文探讨了专用领域LLMs及其产生更好结果的能力。

学习目标

在我们深入技术细节之前,让我们概述本文的学习目标:

  • 了解大型语言模型(LLMs)的概念,了解它们的优势和好处。
  • 了解流行通才型LLMs的局限性。
  • 了解什么是专用领域LLMs以及它们如何帮助解决通才型LLMs的局限性。
  • 探索构建专用领域语言模型的不同技术,并通过示例展示它们在法律、代码补全、金融和生物医学等领域的性能优势。

本文作为数据科学博文的一部分发表。

什么是LLMs?

大型语言模型(LLM)是一个包含数亿到数千亿个参数的人工智能系统,旨在理解和生成文本。训练过程涉及将模型暴露于来自互联网文本(包括书籍、文章、网站和其他书面材料)的许多句子,并教导它预测句子中的掩码词或后续词。通过这样做,模型学习了其训练文本中的统计模式和语言关系。它们可以用于各种任务,包括语言翻译、文本摘要、问答、内容生成等。自从Transformer被发明以来,已经构建和发布了无数个LLMs。最近流行的LLMs的一些例子包括Chat GPT、GPT-4、LLAMA和Stanford Alpaca,它们取得了突破性的性能。

LLMs的优势

LLMs已经成为语言理解、实体识别、语言生成等问题的首选解决方案。在GLUE、Super GLUE、SQuAD和BIG基准测试等标准评估数据集上取得的出色表现反映了这一成就。BERT、T5、GPT-3、PALM和GPT-4发布时都在这些标准测试中取得了最先进的结果。GPT-4在BAR和SAT等方面的得分超过了普通人。下图(图1)显示了大型语言模型出现以来在GLUE基准测试中的显著改进。

释放领域特定LLMs的潜力 四海 第1张

大型语言模型的另一个主要优势是其改进的多语言能力。例如,训练了104种语言的多语言BERT模型在不同语言上展现出了很好的零-shot和few-shot结果。此外,利用LLMs的成本变得相对较低。出现了一些低成本的方法,如提示设计和提示调整,可以确保工程师可以以较低的成本轻松利用现有的LLMs。因此,大型语言模型已成为基于语言的任务的默认选择,包括语言理解、实体识别、翻译等。

通才型LLMs的局限性

大多数流行的LLMs,如上述提到的那些,是训练于互联网文本、书籍、维基百科等各种文本资源的通才型LLMs。这些LLMs有多种应用,包括搜索助手(使用GPT-4的Bing Chat,使用PALM的BARD)、内容生成任务(如编写营销邮件、营销内容和销售演讲稿)以及问答任务(如个人聊天机器人、客户服务聊天机器人等)。

尽管通才型人工智能模型在理解和生成各种主题的文本方面表现出色,但它们有时需要更深入、更细致的专业领域知识。例如,“债券”是金融行业的一种借贷形式。然而,通用语言模型可能无法理解这个独特的短语,并将其与化学中的债券或两个人之间的债券混淆。相反,专门针对特定使用案例的LLMs对与特定行业相关的术语有专门的理解,能够正确解释行业特定的概念。

此外,通用语言模型(LLMs)存在多个隐私挑战。例如,在医学LLMs的情况下,患者数据非常重要,将此类机密数据暴露给通用LLMs可能会违反隐私协议,因为RLHF等技术的存在。另一方面,专业领域的LLMs采用封闭框架,以避免数据泄露。

同样,通用LLMs容易出现严重的幻觉问题,因为它们往往是为创意写作而量身定制的。而专业领域的LLMs在领域特定的基准测试中表现更加精确,并且性能显著更好,如下面的应用案例所示。

专业领域的LLMs

在特定领域的数据上训练的LLMs被称为专业领域的LLMs。领域这个术语可以涵盖从特定领域(如医学、金融等)到特定产品(如YouTube评论)的任何内容。专业领域的LLMs旨在在领域特定的基准测试上表现最佳;通用基准测试不再关键。构建专用语言模型的方法有多种。最常见的方法是将现有的LLMs进行微调以适应特定领域的数据。然而,对于追求在利基领域中达到最先进性能的用例来说,预训练才是正确的选择。

微调 vs.预训练

将现有的LLMs调整到特定领域可以极大地改善开发针对该领域进行微调的语言模型的过程。在微调中,模型利用预训练期间编码的知识根据特定领域的数据调整这些参数。微调需要较少的训练时间和标记数据。由于成本较低,这一方法已成为专门领域LLMs的流行方法。然而,微调可能存在严重的性能限制,特别是对于利基领域。让我们通过一个简单的例子来理解这一点,该例子是针对法律语言理解构建的BERT模型(论文)。使用了两个预训练模型:BERT-base和Custom Legal-BERT。如下图所示,对法律任务进行微调的BERT-base模型明显优于对法律任务进行微调的Custom Legal-BERT模型。

释放领域特定LLMs的潜力 四海 第2张

上面的例子清楚地展示了专业领域预训练的优势,相比于微调,在法律等利基领域,通用语言模型的微调有所帮助,但使用预训练的LLMs在利基问题领域会表现得更好。以下部分将解释不同的预训练方法,并给出每种方法及其成功的例子。

领域特定的预训练

使用精心选择或创建的与特定领域相一致的大规模数据集来预训练语言模型,称为领域特定的预训练。模型可以通过在领域特定数据上进行训练来学习领域特定的知识,例如术语、概念和该领域独特的细微差别。这有助于模型了解目标领域的独特要求、语言和背景,从而产生更准确和上下文恰当的预测或回复。这提高了模型对目标领域的理解,并提高了其生成能力的精确性。有多种方法可以使用领域特定数据进行LLMs的预训练。以下是其中几种方法:

方法 1

仅使用领域特定数据而不是通用数据来自我监督的语言建模任务中预训练模型。这样,模型将学习领域特定的知识。然后,可以对领域特定的LLM进行微调以构建任务特定的模型。这是预训练领域特定LLM的最简单方法。一个图示了使用仅领域特定数据进行自我监督学习,以构建领域特定LLM的流程。

释放领域特定LLMs的潜力 四海 第3张

例子:StarCoderBase

StarCoderBase是一个用于代码的大型语言模型(Code LLMs),使用来自GitHub的许可数据进行训练,包括80多种编程语言、Git提交和Jupyter笔记本。它是一个拥有1万亿标记和150亿参数的模型。StarCoderBase在比赛中击败了包括PaLM、LaMDA和LLaMA在内的最重要的模型,同时体积更小,证明了领域专门化LLMs的实用性。(来自StarCoder论文的图像)

释放领域特定LLMs的潜力 四海 第4张

方法二

将领域特定数据与通用数据结合,对模型进行自监督语言建模任务的预训练。通过这种方式,模型将学习领域特定知识并利用通用语言预训练来提高语言理解能力。下图显示了仅使用领域特定数据和通用语料库进行自监督学习以构建领域特定LLM的流程,然后可以对其进行微调以进行领域特定任务。

释放领域特定LLMs的潜力 四海 第5张

示例:Bloomberg GPT

Bloomberg GPT是一个在大量金融数据存档上进行训练的金融领域LLM,包括一个包含3630亿个令牌的英文金融论文数据集。这些数据还使用了一个包含3450亿个令牌的公共数据集,生成了一个超过7000亿个令牌的大规模训练语料库。研究人员使用这个训练数据集的子集构建了一个包含500亿个参数的仅解码器因果语言模型。值得注意的是,Bloomberg GPT模型在金融特定的NLP基准测试中远远超过了目前类似规模的开放模型。下图显示了Bloomberg GPT在金融特定NLP任务上的性能比较。来源:Bloomberg。

释放领域特定LLMs的潜力 四海 第6张

方法三

构建或使用预训练的通用LLM,并在其参数上进行冷启动。在通用LLM的冷启动基础上,使用领域特定数据运行语言建模自监督任务,构建领域特定LLM,然后可以对其进行微调以构建特定任务的模型。这利用了通用LLM的迁移学习,通过在通用LLM上进行冷启动。下图显示了逐步自监督学习的流程,首先使用通用语料库,然后使用领域特定语料库构建领域特定LLM。

释放领域特定LLMs的潜力 四海 第7张

示例:BioBERT

BioBERT(Lee等,2019)是基于BERT-base模型(Devlin等,2019)的,具有额外的生物医学领域预训练。该模型在Pub Med上进行了20万步的训练,并在PMC上进行了27万步的训练,然后在Pub Med数据集上进行了100万步的训练。当在生物医学语料库上进行预训练时,BioBERT在生物医学文本任务中击败了BERT和先前的最先进模型,同时在任务之间几乎保持了相同的架构。BioBERT在三个代表性的生物医学文本挖掘任务上表现优于BERT:生物医学命名实体识别(F1分数提高了0.62%),生物医学关系抽取(F1分数提高了2.80%)和生物医学问答(MRR提高了12.24%)。

领域特定预训练LLM的优势

上述示例说明了在特定领域中预训练语言模型的强大能力。列出的技术可以显著提高该领域任务的性能。此外,领域特定LLM还有几个其他优点。领域特定LLM最终将带来更好的用户体验。领域特定LLM的另一个重要优点是减少幻觉。大型模型的一个大问题是可能产生幻觉或不准确的信息生成。领域特定LLM可以优先考虑回复的准确性,并通过限制应用案例的范围来减少幻觉。领域特定LLM的另一个主要优点是保护敏感或私密信息,这是当今企业面临的一个重大问题。

结论

随着越来越多的使用案例采用LLM以获得更好的性能和多语言能力,有必要从LLM的角度来解决新问题。此外,上述部分中列出的性能数据表明,将现有解决方案迁移到使用LLM是一项值得投资的工作。通过本文提到的方法进行实验将提高您使用领域特定预训练的目标实现的机会。

要点

  • LLM由于其强大的零样本学习和少样本学习能力、多语言能力、适应各种用例以及低数据使用的便利性而变得强大。
  • 然而,通用型LLM存在幻觉和低精度的局限性,缺乏领域理解和潜在的隐私侵犯问题。
  • 针对这些限制,领域专用LLM是解决方案。预训练自定义大型语言模型比微调它们获得最佳性能结果更好。当为特定领域构建自定义大型语言模型时,它们的性能更好且精度高。
  • 在法律、代码生成、金融和生物医学等领域,领域专用LLM已经证明,在各自领域的自然语言处理基准测试中,构建专门的基础模型确实优于通用模型。

常见问题

参考文献

[1] Jinhyuk Lee等人,《BioBERT: a pre-trained biomedical language representation model for biomedical text mining》,Bioinformatics,Volume 36,Issue 4,February 2020 [2] Shijie Wu等人,《BloombergGPT: A Large Language Model for Finance》,2023 [3] Raymond Li等人,《StarCoder: May the source be with you! 2023 [4] Jingqing Zhang等人,《PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization》,2019 [5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova,《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》,NAACL-HLT (1) 2019

本文中显示的媒体不归Analytics Vidhya所有,仅由作者自行决定使用。

Leave a Reply

Your email address will not be published. Required fields are marked *