Press "Enter" to skip to content

适者生存:紧凑的生成式人工智能模型是规模化、具有成本效益的人工智能的未来

图像来源:Adobe Stock。

为大规模部署的生成式AI应用程序提供灵活、有针对性的检索模型作为最佳解决方案的论点。

经过十年快速增长的人工智能(AI)模型复杂性和计算能力,2023年标志着关注效率和广泛应用生成式AI(GenAI)的转变。因此,一批新的模型,参数少于150亿个,被称为灵活的AI,尤其在针对特定领域时,可以与包含1000亿个以上参数的ChatGPT-style巨型模型的能力相媲美。虽然GenAI已经在各行各业部署,用于广泛的商业用途,但紧凑而高智能的模型的使用正在增加。在不久的将来,我预计会有少量的巨型模型,以及嵌入无数应用程序中的大量灵活的AI模型。

尽管较大的模型取得了很大进展,但对于训练和环境成本来说,越大并不一定越好。 TrendForce估计,仅ChatGPT-4的训练费用就超过1亿美元,而灵活模型的预训练成本要低几个数量级(例如,MosaicML的MPT-7B约为20万美元)。大部分计算成本发生在持续推理执行过程中,但对于较大的模型来说,也存在昂贵的计算问题。此外,托管在第三方环境中的巨型模型引发了安全和隐私挑战。灵活模型的运行成本大大降低,并提供了一系列额外的优势,如适应性、硬件灵活性、与更大型应用程序的整合性、安全性和隐私性、可解释性等(见图1)。较小模型性能不如较大模型的观念也在改变。较小而有针对性的模型并不缺乏智能 – 它们可以为商业、消费者和科学领域提供相当或更高的性能,增加其价值同时降低时间和成本投入。

越来越多的这些灵活模型大致与ChatGPT-3.5级别的巨型模型性能相匹配,并且继续在性能和范围上迅速提高。当灵活模型配备即时检索经过策划的特定领域私有数据和基于查询的网络内容的有针对性检索时,它们比记忆广泛数据集的巨型模型更准确和更具成本效益。

图1. 灵活GenAI模型的优势。图像来源:英特尔实验室。

随着灵活的开源GenAI模型走向前沿,这种“iPhone时刻”,即一种革命性技术成为主流的时刻,正在受到“Android革命”的挑战,因为一支强大的研究人员和开发人员社区在彼此的开源努力基础上不断构建能力更强的灵活模型。

思考、行动、了解:有针对性领域的灵活模型可以像巨型模型一样执行

图2. 生成式AI的能力类别。图像来源:英特尔实验室。

为了更好地了解较小模型何时以及如何为生成式AI提供具有竞争力的结果,观察到灵活和巨型GenAI模型都需要三类能力:

  1. 思考的认知能力:包括语言理解、摘要、推理、规划、从经验中学习、长篇表达和交互对话。
  2. 执行的功能技能:例如 – 在野外阅读文本、阅读图表/图形、视觉识别、编程(编码和调试)、图像生成和语音。
  3. 要知道的信息(记忆或检索):包括社交媒体、新闻、研究和其他一般内容的网络内容,以及医疗、金融和企业数据等策划领域特定内容。

具有思考能力的认知能力。基于其认知能力,该模型可以“思考”和理解、总结、综合、推理和组合语言和其他符号表示。灵活和巨型模型在这些认知任务中都可以表现出色,并且尚不清楚这些核心能力是否需要庞大的模型规模。例如,微软研究的Orca等灵活模型已经在多个基准测试中展示出了与ChatGPT相匹配或超越的理解、逻辑和推理能力。此外,Orca还证明了推理能力可以从用作教师的较大模型中提取出来。然而,目前用于评估模型认知能力的基准测试仍然很初步。需要进一步的研究和基准测试来验证灵活模型是否可以预先训练或微调以完全匹配巨型模型的“思考”能力。

具有实用能力的功能能力。由于其作为一体化模型的普遍关注,较大的模型很可能具有更多的功能能力和信息。然而,对于大多数企业应用来说,任何部署的应用程序都需要一定范围的功能能力。在业务应用中使用的模型应具有灵活性和空间以实现增长和多样化的使用,但很少需要无限制的功能能力集合。GPT-4可以在多种语言中生成文本、代码和图像,但是掌握数百种语言并不意味着这些巨型模型具有更多的底层认知能力,这主要为模型提供了更多的功能能力以“完成”更多任务。此外,功能专门的引擎将与GenAI模型链接并在需要时使用,例如,通过将数学“Wolfram超能力”模块化地添加到ChatGPT中,可以提供一流的功能而不给模型增加不必要的规模。例如,GPT-4正在部署插件,这些插件实际上是利用较小的模型进行附加功能。还有传言称,GPT-4模型本身是由多个巨型(不超过1000亿参数)“混合专家”模型集合组成的,这些模型在不同的数据和任务分布上进行了训练,而不是像GPT-3.5那样的单块密集模型。为了获得最佳的能力组合和模型效率,未来的多功能模型可能会采用比每个模型小于150亿参数的更小、更专注的混合专家模型。

图3. 基于检索的、功能扩展的模型可以提供广泛的功能范围和相关信息,与模型大小基本独立。图片来源:英特尔实验室。

通过记忆或检索获取的信息。巨型模型通过在参数内存中记忆大量数据来“获取”更多信息,但这并不一定使它们更聪明。它们只是比较小的模型更具普遍知识。在新的用例中,巨型模型在零点环境中具有很高的价值,为没有目标的一般消费者群体提供支持,并在提取和微调像Orca这样的灵活模型时充当教师模型。然而,针对性的灵活模型可以针对特定领域进行训练和/或微调,提供所需能力的更强大技能。

图4. 通过检索使小模型能够匹配更大模型的价值(使用Contriever检索方法)。图片来源:英特尔实验室,基于Mallen等人的工作。

例如,针对编程的模型可以关注与医疗保健AI系统不同的能力集。此外,通过使用经过策划的内部和外部数据集进行检索,可以大大提高模型的准确性和时效性。最近的一项研究表明,在PopQA基准测试中,仅拥有13亿参数的模型通过检索可以表现得和一个拥有1750亿参数的模型一样好(见图4)。从这个意义上说,具有高质量索引可访问数据的针对性系统的相关知识可能比一个多功能的通用系统更广泛。这对于大多数需要用例或特定应用程序数据的企业应用程序来说更为重要,并且在许多情况下,需要的是本地知识而不是广泛的通用知识。这是灵活模型未来实现的价值所在。

三个方面推动灵活模型爆炸性增长

在评估灵活模型的好处和价值时,有三个方面需要考虑:

  1. 在适度的模型大小下高效率。
  2. 作为开源或专有软件进行许可。
  3. 模型专业化为通用型或定向型,包括检索。

就模型大小而言,灵活的通用模型,如Meta的LLaMA-7B和-13B或Technology Innovation Institute的Falcon 7B开源模型,以及MosaicML的MPT-7B、Microsoft Research的Orca-13B和Saleforce AI Research的XGen-7B等专有模型,正在快速改进(见图6)。选择高性能、较小的模型对操作成本以及计算环境的选择都具有重要意义。ChatGPT的175B参数模型和GPT-4的估计1.8万亿参数需要大量安装加速器,如具备足够计算能力的GPU,以处理训练和微调工作量。相比之下,灵活模型通常可以在任何硬件选择上运行推理,从单个插槽CPU,到入门级GPU,再到最大的加速装置。目前,灵活AI的定义是基于13B参数或更小的模型出色结果的15B参数。总的来说,灵活模型为处理新的用例提供了一种更具成本效益和可扩展性的方法(请参阅有关灵活模型的优势和劣势的部分)。

开源许可的第二个方面允许大学和公司在彼此的模型上进行迭代,推动了创新的繁荣。开源模型允许小模型能力的令人难以置信的进步,如图5所示。

图5. 2023年上半年,灵活的开源非商业和商业GenAI模型腾飞。图片来源:英特尔实验室。

从2023年初开始,有多个示例说明了通用灵活生成AI模型的应用,其中包括Meta的LLaMA,该模型具有7B、13B、33B和65B参数。以下模型在7B和13B参数范围内是通过对LLaMA进行微调创建的:斯坦福大学的Alpaca,伯克利AI研究的Koala,以及由加州大学伯克利分校、卡内基梅隆大学、斯坦福大学、加州圣地亚哥大学和MBZUAI的研究人员创建的Vicuna。最近,微软研究发表了一篇关于尚未发布的Orca的论文,这是一个基于13B参数的LLaMA模型,可以在定位或微调到特定领域之前以令人印象深刻的结果模拟巨型模型的推理过程。

图6. 使用Vicuna评估集由GPT-4评估的开源聊天机器人相对回答质量的比较。图片来源:微软研究。

Vicuna可能是最近从LLaMA基础模型派生的开源灵活模型的良好代表。Vicuna-13B是由大学合作创建的聊天机器人,旨在解决ChatGPT等现有模型中缺乏训练和架构细节的问题。在通过ShareGPT的用户共享对话进行微调后,Vicuna的回答质量超过90%,与GPT-4作为评判标准时相比,胜过了ChatGPT和Google Bard。然而,这些早期的开源模型不可用于商业用途。据报道,MosaicML的MPT-7B和Technology Innovation Institute的Falcon 7B是商业可用的开源模型,其质量与LLaMA-7B相当。

图7. Orca-13B在BIG-bench Hard的复杂零射击推理任务上表现与ChatGPT一样出色。图片来源:微软研究。

根据研究人员的说法,《虎鲸》在复杂的零样本推理基准测试(如Big-Bench Hard)中,比传统的经过指导调整的模型(例如Vicuna-13B)的表现提高了100%以上。它在BBH基准测试中与ChatGPT-3.5达到了同等水平。研究人员表示,《虎鲸-13B》在其他通用模型上的卓越性能证实了巨型模型的规模可能源于早期模型的蛮力。巨型基础模型的规模对于像虎鲸-13B这样的较小模型来说,可以在知识和方法上进行提炼,但对于推理来说,规模并不一定是必需的,即使对于通用情况也是如此。需要注意的是,只有在广泛部署和实践时,才能对模型的认知能力、功能技能和知识记忆进行全面评估。

在撰写本博客时,Meta发布了Llama 2模型,它具有7B、13B和70B个参数。与第一代相比,这款模型仅仅四个月就实现了显著改进。在比较图表中,灵活的Llama 2 13B模型取得了与上一代LLaMA模型以及MPT-30B和Falcon 40B模型类似的结果。Llama 2是开源的,可供研究和商业用途免费使用。它是与微软以及包括英特尔在内的其他合作伙伴紧密合作推出的。Meta致力于开源模型,并通过广泛的合作将进一步推动这些模型在跨行业/学术改进周期中的快速发展。

灵巧模型的第三个方面与专业化有关。许多新推出的灵巧模型是通用模型,例如LLaMA、Vicuna和虎鲸。通用的灵巧模型可能仅依赖于它们的参数化内存,通过微调方法(包括LoRA:大型语言模型的低秩适应)以及检索增强生成,即在推理过程中动态地从策划语料库中提取相关知识。检索增强解决方案正在建立并不断改进,借助LangChain和Haystack等GenAI框架实现易于灵活地集成索引和有效访问大型语料库的功能。

大多数业务用户更喜欢针对其特定领域兴趣进行调整的目标模型。这些目标模型还倾向于使用基于检索的方法来利用所有关键信息资产。例如,医疗保健用户可能希望自动化患者沟通。

目标模型使用两种方法:

  1. 将模型本身专门针对目标用例的任务和数据类型进行专业化。这可以通过多种方式实现,包括在特定领域知识上进行预训练(例如phi-1在网络上从高质量教科书数据中进行预训练),对相同规模的通用基础模型进行微调(例如Clinical Camel对LLaMA-13B进行微调),或者将巨型模型的知识和方法提炼并学习到学生灵巧模型中(例如虎鲸学习模仿GPT-4的推理过程,包括解释轨迹、逐步思考过程和其他复杂指令)。
  2. 策划和索引与目标用途相关的数据,这可能是大量的数据,但仍在目标用例的范围/空间内。模型可以检索公共网络和私人消费者或企业内容,并进行持续更新。用户确定要索引的来源,从而可以选择高质量的网络资源以及更完整的资源,例如个人的私人数据或公司的企业数据。虽然检索现在已经整合到巨型和灵巧系统中,但它在较小模型中起着至关重要的作用,因为它为模型的性能提供了所有必要的信息。它还允许企业将其所有私人和本地信息提供给在其计算环境中运行的灵巧模型。

灵巧生成AI模型的优缺点

未来,紧凑模型的规模可能会增加到20B或25B个参数,但仍远远低于100B个参数的范围。还有一些中等规模的模型,如MPT-30B、Falcon 40B和Llama 2 70B。虽然预计它们在零样本上的表现将优于较小的模型,但我不认为它们在任何定义的功能集上会比灵巧、目标化、基于检索的模型表现得更好。

与巨型模型相比,灵巧模型有许多优点,当模型是目标化和基于检索时,这些优点进一步增强。这些优势包括:

  • 可持续和更低成本的模型:模型的训练和推理计算成本大大降低。对于集成到24×7使用中的面向业务的模型来说,推理运行时计算成本可能是可行性的决定因素,而大幅降低的环境影响在广泛部署中也非常重要。最后,由于灵巧模型是可持续的、专用的和功能导向的系统,它们并不试图解决人工通用智能(AGI)的雄心壮志,因此与后者相关的公众和监管辩论相对较少。
  • 更快的微调迭代:较小的模型可以在几个小时(甚至更短的时间内)进行微调,通过像LoRA这样的适应方法向模型添加新信息或功能。这种方法在灵巧模型中非常有效,使得模型能够更频繁地进行改进,使其始终与使用需求保持同步。
  • 基于检索的模型优势:检索系统通过直接从源头引用大部分信息,而不是从模型的参数化内存中获取知识。这提供了以下改进:
    可解释性:检索模型使用源属性,提供来源可追溯性或追踪信息来源的能力,以提供可信度。
    及时性:一旦一个最新的源被索引,它就可以立即供模型使用,无需进行任何训练或微调。这允许不断添加或更新相关信息,实现几乎实时的操作。
    数据范围:针对需求检索的信息可以非常广泛和详细。当专注于其目标领域时,模型可以覆盖巨大的范围和深度的私人和公共数据。它可能包括比巨型基础模型训练数据集更多的卷积和详细信息。
    准确性:以原始形式、详细和上下文的方式直接访问数据可以减少虚构和数据近似。只要它们在检索空间内,它可以提供可靠而完整的答案。对于较小的模型来说,跟踪策划信息的可检索性和记忆信息(如巨型模型中的信息)之间的冲突也较少,这种记忆信息可能已经过时、部分或没有归属于源头。
  • 硬件选择:灵巧模型的推理可以在任何硬件上实现,包括可能已经是计算设置的一部分的无处不在的解决方案。

    灵活模型的一些挑战仍值得一提:

    • 任务范围缩小:通用的巨型模型具有出色的多功能性,尤其擅长于从未考虑过的零样本新用途中。灵活系统所能实现的广度和范围仍在评估中,但最新模型似乎有所改进。定向模型假定在预训练和/或微调期间已知并定义了任务范围,因此范围的缩小不应对任何相关功能产生影响。定向模型不是单一任务,而是一系列相关功能的家族。这可能会导致因任务或业务特定的灵活模型而产生碎片化。
    • 可能通过少量微调来改进:为了使模型能够有效地处理定向空间,不总是需要进行微调,但可以通过调整模型以适应应用程序所需的任务和信息来提高人工智能的效能。现代技术使得可以使用少量示例进行此过程,而无需深入的数据科学专业知识。
    • 检索模型需要索引所有源数据:模型在推理过程中通过索引映射获取所需信息,但存在错过信息源的风险,从而使其对模型不可用。为确保来源、可解释性和其他属性,定向的基于检索的模型不应依赖于存储在参数化内存中的详细信息,而应主要依赖于在需要时可提取的索引信息。

    总结

    生成式人工智能的重大飞跃使得诸如以普通语言对话的人工智能代理、引人注目的文本摘要和生成、图像生成、利用先前迭代的上下文等新功能成为可能。本博客介绍了“灵活人工智能”这一术语,并论证了为什么它将成为部署规模化通用人工智能的主要方法。简而言之,灵活人工智能模型运行速度更快,通过持续微调更容易刷新,并且通过开源社区的集体创新更容易进行快速技术改进。

    正如通过多个示例所证明的那样,通过最大模型的演进产生的出色性能表明,灵活模型不需要与巨型模型一样庞大的体量。一旦掌握了潜在的认知能力,调整所需的功能并提供了数据,灵活模型将为商业世界提供最高价值。

    然而,灵活模型不会使巨型模型灭绝。巨型模型仍然预计在零样本的开箱即用环境中表现更好。这些大型模型还可以用作转化为更小、灵活模型的源(教师模型)。尽管巨型模型具有大量额外的记忆信息来适应任何潜在的用途,并且具备多种技能,但大多数通用人工智能应用不太可能需要这种普遍性。相反,将模型微调为与领域相关的信息和技能,以及能够从策划的本地和全球资源中检索最新信息,将为许多应用提供更好的价值主张。

    将灵活的定向人工智能模型视为可以整合到任何现有应用程序中的模块,提供了非常引人注目的价值主张,包括:

    • 部署和运营成本仅需一小部分。
    • 适用于任务和私有/企业数据。
    • 可在一夜之间进行更新,并可以在CPU、GPU或加速器上运行。
    • 集成到当前的计算
Leave a Reply

Your email address will not be published. Required fields are marked *