Press "Enter" to skip to content

什么是大型语言模型(LLMs)?LLMs的应用和类型是什么?

什么是大型语言模型(LLMs)?LLMs的应用和类型是什么? 机器学习 第1张什么是大型语言模型(LLMs)?LLMs的应用和类型是什么? 机器学习 第2张

被称为大型语言模型的计算机程序为软件提供了分析和创建文本的新选项。大型语言模型通常使用千兆字节甚至更多的文本数据进行训练,使其大小达到几十兆字节。模型的参数是从先前的训练数据中学到的组件,从本质上来说,它们确定了模型在任务(如文本生成)上的熟练程度。自然语言处理(NLP)活动,包括语音转文字、情感分析、文本摘要、拼写检查、令牌分类等,都依赖于语言模型作为其基础。语言模型可以分析文本并预测大多数自然语言处理任务中下一个令牌出现的可能性。Unigram、N-gram、指数和神经网络都是语言模型的有效形式。

LLM的应用

下图总结了目前大型语言模型(LLM)的功能、产品和支持软件方面的现状。

什么是大型语言模型(LLMs)?LLMs的应用和类型是什么? 机器学习 第3张
图片来源:https://cobusgreyling.medium.com/the-large-language-model-landscape-9da7ee17710b
  • Shell命令生成

下一代终端Warp利用GPT-3将自然语言转化为可执行的shell指令,类似于GitHub Copilot,但用于终端。

即使对于经验丰富的程序员来说,shell命令的语法可能也需要解释。

  • 正则表达式生成

开发人员编写正则表达式是一项耗时的任务,然而Autoregex.xyz利用GPT-3自动化这个过程。

  • 文案撰写

这项任务最常用的模型是GPT-3,但也有开源替代方案,如BigScience的BLOOM和Eleuther AI的GPT-J。Copy ai、Copysmith、Contenda、Cohere和Jasper ai是在这一领域开发应用程序的一些初创公司,它们的工具可以更快、更轻松地编写博客文章、销售内容、数字广告和网站文案。

  • 分类

将文本分类到预定类别是一种监督学习的例子。通过使用聚类这种无监督学习技术,可以将具有相似含义的文本聚类在一起,而无需使用预定义的类别。

  • 回应生成

回应生成是使用示例对话生成对话流的思路,并采用机器学习方法。在这种方法中,下一次呈现给用户的对话取决于模型,考虑到用户的过去回答和最有可能的未来对话,这被称为预测式对话。

  • 文本生成

LLM的能力从简要描述中生成测试,无论是否有示例数据,都可以被视为其“元能力”。

几乎所有LLM都能扮演生成的角色。少样本学习数据不仅显著提升了生成能力,而且数据的构造也影响着数据的使用方式。

  • 知识回答

知识回答是知识密集型自然语言处理(KI-NLP)的应用,它允许对通用和跨领域的问题进行回答,而无需查询应用程序接口(API)或依赖传统的知识存储。

知识密集型自然语言处理不是网络搜索,而是基于语义搜索的知识库。

  • 前端/网站生成

Pygma用于将Figma模型转换为可用于生产的代码。Salesforce的CodeGen计划的最终目标是促进对话式网页设计和生成。

  • SQL生成

Cogram是一个数据库查询语言转换器,它消除了用户需要精通SQL才能访问数据和获取业务见解的需求。

  • 自动化代码审查和代码质量改进

Codiga提供自动代码审查,Mutable AI工业化了Jupyter笔记本。

  • 数据库查询优化和DevOps辅助/自动化

数据库错误,例如缓存未命中和缺少索引,可能会导致各种困难,Ottertune可以帮助您诊断和纠正。

  • 代码生成和自动完成

Codex(支持Copilot)是最通用的方法;但是,Salesforce的CodeGen是一个开源的替代方案。软件开发初创企业包括Tabnine、Codiga和Mutable AI等公司。

  • 个性化推荐

关于Naver的电子商务平台,HyperCLOVA不仅仅是搜索引擎,还可以实现“将多个消费者评论总结成一句话”、“根据用户购物偏好推荐和策划产品”以及“生成特色购物系列的营销短语”等功能。

Shaped AI还为信息流、推荐和发现网站提供排名算法。

  • 产品需求文档(PRD)生成

Monterey正在研发一个“产品开发的副驾驶”,可能包括LLMs。

  • 产品洞察

Viable、Interpret、Cohere和Anecdote这四个工具可以将用户输入转化为产品改进的可操作见解。

  • 企业搜索

通过GPT-3、Glean、Hebbia和Algolia搜索文本数据或SaaS应用程序,帮助用户(内部或外部)找到他们所需要的内容。您的工作场所的内部笔记也可以由Mem自动组织。

  • 翻译

Meta进行了一项研究,以提高204种不同语言的翻译质量,这是曾经同时翻译的语言数量的两倍。

  • 个性化辅导

Korbit正在辅助大规模在线课程,而Replit正在帮助理解计算机代码。

  • 聊天机器人/支持人员辅助

LaMDA、Rasa、Cohere、Forethought和Cresta等工具可用于驱动聊天机器人或提高客服人员的工作效率。

  • 通用软件工具助手

Adept AI的长期目标是成为一个通用的副驾驶/助手,能够为任何程序推荐工作流步骤。

  • 语法纠错和风格

智能写作助手可以在Duolingo、Writer.com和Grammarly等网站上找到。

  • 个人决策

借助Oogway,人们可以更好地安排选择并做出明智的判断。

LLM的类型

大型语言模型

大型语言模型通常使用千兆字节或更多的文本数据进行训练,使其大小达到数十兆字节。就模型能够根据学习过程中的独立值数量进行调整而言,它是最大的模型之一。模型的参数是从先前的训练数据中学到的组件,实际上确定了模型在文本生成等任务上的熟练程度。近年来,由于对越来越复杂的结构进行研究,大型语言模型的受欢迎程度出现了显著增长。

一些新的公司(例如Cohere和AI21 Labs)提供了类似GPT-3的模型的API。而其他企业,包括Google等互联网巨头,则选择将其复杂的语言模型保密。

 微调语言模型

与庞大的语言模型竞争对手相比,微调模型往往更加紧凑。微调可以提升模型的性能,无论是问答还是蛋白质序列生成。然而,它可以改善模型对特定领域(如医学科学)的了解。

由于它们源于现有语言模型,微调模型所需的训练和执行时间以及计算资源大大减少。许多领域都使用了微调技术,但OpenAI的InstructGPT是一个特别令人印象深刻且最新的例子。

边缘语言模型

边缘变种设计紧凑,可能采用原型的改进版本的形式。它们往往从一开始就在极少量的数据上进行训练,以符合某些硬件限制。当模型可以在边缘设备上本地运行时,避免了使用云的成本。流行的基于云的模型成本可能会累积到数千美元,用于分析数百万条推文等任务。由于边缘模型不会将数据发送到云端进行处理,因此它们应该比其依赖互联网的等效模型更加私密。

顶级开源大型语言模型

  • GPT-Neo、GPT-J和GPT-NeoX

强大的人工智能模型,例如GPT-Neo、GPT-J和GPT-NeoX,可用于Few-shot学习问题。Few-shot学习类似于对任何深度学习模型进行训练和微调,但需要更少的样本。与其他公开可用的开源GPT模型相比,GPT-NeoX主要基于Megatron-LM和DeepSeed进行了重大改进。它使用了Mesh TensorFlow进行构建,并针对GPU进行了优化,因为其复杂性和大小。到目前为止,最大的公开可访问的密集自回归模型是GPT-NeoX-20B模型,它具有200亿个参数,并在Pile上进行了训练。GPT-NeoX-20B的Few-shot学习能力使得可以创建可用于评估项目可行性的概念验证。

  • XLNet

卡内基梅隆大学和谷歌的研究人员建立了一个名为XLNet的新模型,用于阅读理解、文本分类、情感分析等自然语言处理(NLP)任务。通过在所有可能的因子分解顺序上优化概率,其自回归形式超越了BERT的限制,允许在两个方向上获取知识。它使用了广义自回归模型进行预训练。此外,XLNet还将最先进的自回归模型Transformer-XL纳入预训练过程中。XLNet在包括问答、自然语言推理、情感分析和文档评级在内的18项任务上取得了最先进的性能,并在20项任务上击败了BERT。

  • Roberta

Facebook AI和华盛顿大学的研究人员研究了Google的双向编码器表示转换(BERT)的训练过程。对训练方案进行了许多调整,并取得了改进的结果。研究人员还通过了更多的迭代训练了模型,使用了更大的数据集,选择了更大的小批量大小,放弃了下一个句子预测(NSP)等等。结果是RoBERTa(Robustly Optimized BERT Approach),它在GLUE(General Language Understanding Evaluation)测试中实现了与XLNet相当的性能。

  • DeBERTa

微软研究提出了一种增强了解码的BERT模型,通过解耦注意力来增强BERT和RoBERTa模型。注意力机制首先被解耦;单词由一对向量表示,传达它们的内容和位置。词之间的注意力权重是通过一个矩阵计算的,该矩阵独立考虑了这两个因素。其次,采用了改进的掩码解码器来预测模型预训练期间的掩码标记,而不是softmax层的输出。在发布时,DeBERTa模型的GLUE基准分数超过了人类基准。DeBERTa模型仍广泛应用于许多自然语言处理应用,包括问答、摘要、标记和文本分类。

  • XLM-RoBERTa

XLM-RoBERTa是一个使用变压器将文本从一百种不同语言翻译成其他语言的语言模型。过去,这对于每种新语言都需要重复进行,因为每种语言都有其独特的细微差别。像XLM-RoBERTa这样的多语言模型使得组织能够更快地为需要理解英语的消费者提供价值。然而,它们有时会提供每个作业的最高性能。

  • DistilBERT

DistilBERT采用了与之前试图最大化BERT效率的模型不同的方法。DistilBERT旨在提高推理速度,而其他类似的方法,如XLNet、RoBERTa和DeBERT,改善了性能。它的目标是使具有1.1亿和3.4亿参数的BERT BASE和BERT LARGE更快、更小。

总结

语言的重要性不可低估。它是我们获取和贡献于世界的信息的方式(例如协议、法律或信息)。语言也促进了人与人之间的联系和沟通。尽管软件发展迅速,但计算机的语言能力仍然受限。软件在文本中寻找逐字匹配方面表现出色,但在人们日常使用的更微妙的语言技巧上仍然存在困难。毫无疑问,需要更复杂的工具来增强语言理解能力。

语言处理技术的发展是人工智能(AI)迈出的一大步,使我们能够创建比以往任何时候都更深入理解人类语言的智能系统。尽管庞大、精细调整和尖端的语言模型在不断的研究中不断改进,但它们在广泛使用的道路上仍然面临挑战。尽管它们的有用性,高效训练和实施这些模型仍需要数据、计算能力和技术专长。

Leave a Reply

Your email address will not be published. Required fields are marked *