知识获取占据中心舞台 (Zhīshì huòqǔ zhànjù zhōngxīn wǔtái)

GenAI架构转向解释检索中心生成模型

为了从GenAI消费者部署过渡到商业部署，解决方案应主要建立在模型外部的信息上，使用检索中心生成（RCG）。

随着生成型人工智能（GenAI）在各行各业开始部署，用于广泛的商业用途，公司需要提供效率、准确性、安全性和可追溯性的模型。类似ChatGPT的原始架构已经证明在满足这些关键要求方面存在重大差距。早期的GenAI模型使用检索来应对依赖参数化内存中的记忆信息的模型的缺点，已经取得了显著进展。当前的模型通过在解决方案平台上增强检索增强生成（RAG）的前端，允许提取模型外部的信息，进一步改善了这个问题。也许是时候进一步重新思考生成型人工智能的架构，并从检索是补充的RAG系统转向以检索作为核心访问信息的以检索为中心生成（RCG）模型构建。

可以将以检索为中心的生成模型定义为一种针对大部分数据存储在模型参数内存之外，并且在预训练或微调中大部分不可见的系统设计的生成型人工智能解决方案。在RCG中，GenAI模型的主要作用是解释公司索引数据语料库或其他策划内容中丰富的检索信息。模型不是记忆数据，而是侧重于对目标结构、关系和功能进行微调。生成输出中数据的质量预计将接近100%的准确性和及时性。正确解释和使用大量未在预训练中看到的数据需要增加对模型的抽象能力，并将模式和关系识别作为关键认知能力的使用模式。这种检索要求的新要求，以及对模式自动学习的结合，将推动大型语言模型（LLMs）的预训练和微调的进一步发展。

图1. 检索位中心生成（RCG）与检索增强生成（RAG）的优势与挑战。图片来源：英特尔实验室

大幅减少GenAI模型中参数化内存中的记忆数据的使用，并依靠可验证的索引源将改善溯源，并在提高准确性和性能方面发挥重要作用。GenAI架构到目前为止的普遍假设是模型中有更多的数据越好。基于目前普遍存在的结构，预计大部分令牌和概念已经被采纳并进行了交叉映射，以便模型可以从其参数化内存中提供更好的答案。然而，在普通的商业场景中，生成输出所使用的大多数数据预计将来自所检索的输入。我们现在观察到，虽然在模型中有更多的数据，但同时依赖检索知识会导致信息冲突，或者包含无法追溯或验证其来源的数据。正如我在上一篇博客中概述的那样，《适者生存》，小型、灵活、专注于使用RCG的目标型模型不需要在参数化内存中存储那么多数据。

在数据主要来自检索的商业环境中，目标系统需要在解释未见过的相关信息方面出色。此外，大量向量数据库和上下文窗口大小的增加（例如，OpenAI最近将GPT-4 Turbo中的上下文窗口从32K增加到128K）正在将模型转变为推理和解释未见复杂数据的方向。模型现在需要智能地将广泛的数据转化为有效的知识，通过利用复杂的检索和微调的组合。随着模型变得以检索为中心，创建和利用模式的认知能力将成为重中之重。

GenAI的消费者与企业使用

经过十年的人工智能模型规模和复杂性的快速增长，2023年将转向效率和生成式人工智能的有针对性应用。从消费者关注到商业使用的转变是推动这一变化的三个关键因素之一：数据质量、数据来源和目标用途。

● 数据质量：为公司生成内容和分析时，95%的准确性是不够的。企业需要接近或完全准确。在保证输出质量方面，需要对特定任务的高性能进行微调，并管理所使用的数据质量。此外，数据需要可追溯和可验证。来源的可信性很重要，检索是确定内容来源的核心。

● 数据来源：商业应用中的绝大部分数据预计来自可信的外部来源以及专有的企业数据，包括产品信息、资源、客户、供应链、内部运营等。在访问模型中未经预训练的最新且最广泛的专有数据时，检索至关重要。无论大小型模型，使用自身内部存储器中的数据与从商业来源中提取的可验证和可追溯的数据相比，均可能存在来源问题，这可能导致模型混乱。

● 目标用途：为公司而构建的模型的结构和功能往往专门针对一组用途和数据类型。当GenAI功能部署在特定的工作流程或业务应用中时，不太可能需要一揽子功能。由于数据主要来自检索，所以目标系统需要在模型未曾见过的特定方式上出色地解释相关信息，以满足公司的需求。

例如，如果金融或医疗保健公司追求于改进其服务的GenAI模型，它将专注于一系列适用于其预期用途的功能。他们可以选择从头开始预训练一个模型，并尝试包含所有专有信息。然而，这样的工作很可能成本高昂，需要深厚的专业知识，并且随着技术的发展和公司数据的不断变化而很快过时。此外，它仍然需要依赖检索来获取最新的具体信息。更有效的路径是采用现有的预训练基础模型（如Meta’s Llama 2），通过微调和索引进行定制。微调仅使用了一小部分信息和任务，以改进模型的行为，但广泛的业务专有信息本身可以被索引，并在需要时进行检索。随着基础模型使用最新的GenAI技术进行更新，刷新目标模型应该是一个相对简单的重复微调流程的过程。

过渡到以检索为中心的生成：围绕索引式信息抽取构建

Meta AI和大学合作伙伴在2021年引入了检索增强生成（retrieval-augmented generation，RAG），以解决在LLM中的可追溯性和更新世界知识的问题。研究人员使用RAG作为一种通用方法，为预训练的参数化记忆生成模型添加非参数化记忆。非参数化记忆使用维基百科的稠密向量索引，由预训练的检索器访问。在具有较少记忆数据的紧凑型模型中，强调索引数据的广度和质量，因为模型在商业需求上不能依赖记忆化的信息。RAG和RCG都可以使用相同的检索器方法，在推理时从精选语料库中获取相关知识（见图2）。它们在GenAI系统的信息放置方式以及对先前未见数据的解释期望方面存在差异。对于RAG，模型本身是主要的信息来源，并且通过检索的数据进行辅助。相比之下，对于RCG，绝大部分数据存放在模型参数化记忆之外，使得解释未见数据成为模型的主要角色。

值得注意的是，许多当前的RAG解决方案依赖于类似LangChain或Haystack的流程，将前端检索与独立的向量存储器连接到未经检索预训练的GenAI模型。这些解决方案提供了索引数据源、模型选择和模型行为训练的环境。其他方法，如Google Research的REALM，尝试通过端到端的预训练和集成检索探索。目前，OpenAI正在优化其检索GenAI路径，而不是将其交给生态系统来为ChatGPT创建流程。该公司最近发布了Assistants API，用于从模型外部检索专有领域数据、产品信息或用户文档。

图2：在推理过程中，RCG和RAG都检索公共和私人数据，但它们在如何存储和解释未见数据方面存在差异。图片来源：英特尔实验室。

在其他例子中，像英特尔实验室的 fastRAG 这样的快速检索模型使用预训练的小型基础模型从知识库中提取请求的信息，而无需额外的训练，提供了一种更可持续的解决方案。作为开源 Haystack GenAI 框架的扩展，fastRAG 使用一个检索模型从外部知识库中检索当前文档以生成对话式回答。此外，Meta 的研究团队最近发表了一篇论文，介绍了“Retrieval-Augmented Dual Instruction Tuning”(RA-DIT)，这是“一种轻量级的微调方法，通过为任何大型语言模型添加检索能力来提供第三种选择。”

从 RAG 到 RCG 模型的转变使信息在训练中的角色发生了变化。与其作为信息的存储库和对提示信息的解释者，RCG 的功能主要是对检索到的（通常是企业策划的）信息进行上下文解释。这可能需要修改预训练和微调的方法，因为当前用于训练语言模型的目标可能不适用于这种类型的学习。RCG 需要模型具备不同的能力，如更长的上下文、对数据的解释能力、数据的策划和其他新挑战。

学术界或工业界中目前还很少有 RCG 系统的例子。在一个案例中，Kioxia 公司的研究人员创建了开源工具 SimplyRetrieve，它使用 RCG 架构来提升 LLMs 的性能，从而将上下文解释和知识记忆进行了分离。研究人员在 Wizard-Vicuna-13B 模型上实施了该方法，发现 RCG 对于关于组织工厂位置的查询回答准确。相比之下，RAG 尝试将检索到的知识库与 Wizard-Vicuna 对组织的了解集成在一起，导致了部分错误的信息或产生了幻觉。这只是一个例子，RAG 和检索后生成 (ROG) 可能在其他情况下提供正确的回答。

图3：检索中心生成（RCG）、检索辅助生成（RAG）和检索关闭生成（ROG）的对比。正确的回答显示为蓝色，幻觉显示为红色。图片来源：Kioxia Corporation。

从 RAG 到 RCG 的过渡可以类比为在编程中使用常量（RAG）和变量（RCG）的差别。当一个 AI 模型回答关于可转换的福特野马的问题时，一个大型模型会熟悉该车的许多相关细节，如问世年份和发动机规格。大型模型也可以添加最近检索到的更新，但它的回答主要是基于特定的内部已知术语或常量。然而，当一个模型被部署在一家电动汽车公司准备发布下一款车型时，该模型需要推理和复杂解释，因为大多数数据都是未见过的。该模型需要理解如何使用类型信息，比如变量的值，来理解数据的含义。

模式：推理过程中的概括和抽象能力

在商业环境中检索到的大部分信息（商业组织和人员、产品和服务、内部流程和资产）在预训练期间相应的GenAI模型中可能没有被看到，并且在微调期间只能进行抽样。这意味着transformer架构不能将“已知”的单词或术语（即模型先前摄取的部分）作为生成输出的一部分。相反，架构要求将未见过的术语放置在适当的语境中进行解释。这在某种程度上类似于无需额外训练的LLM中的上下文学习已经使一些新的推理能力成为可能。

通过这种变化，对概括和抽象的进一步改进变得必要。需要增强的一个关键能力是能够在推断时通过提示使用已学习的模式来解释和使用未见过的术语或标记。在认知科学中，模式描述了思维或行为的模式，它组织了信息的分类和其中的关系。心理模式可以描述为一种心智结构，它代表了世界的某个方面。同样，在GenAI模型中，模式是一种必需的抽象机制，用于正确解释未见过的标记、术语和数据。如今的模型已经展示出对新兴模式构建和解释的较好掌握程度，否则它们将无法像现在这样在复杂的未见过的提示上执行生成任务。当模型检索以前未见过的信息时，它需要识别与数据最佳匹配的模式。这使得模型能够通过与模式相关的知识解释未见数据，而不仅仅是上下文中包含的显式信息。值得注意的是，在本讨论中，我提到的是神经网络模型，其学习和抽象模式是一种不断出现的能力，而不是依赖于在推断时表示的显示模式的解决方法的类别。

从三种模型能力（认知能力、功能技能和信息获取）的角度来看，抽象和模式使用属于认知能力范畴。特别是，如果小型模型能够在解释数据时磨练构建和使用模式的技能，它们应该能够与较大的模型相媲美（如果给定了适当的检索数据）。可以预期，与模式相关的课程式预训练将增强模型的认知能力。这包括模型构建各种模式的能力，根据生成过程识别适当的模式并将信息插入/利用模式构建以创建最佳结果。

例如，研究人员展示了当前LLM如何使用Hypotheses-to-Theories（HtT）框架学习基本模式。研究人员发现，LLM可以生成规则，然后遵循这些规则来解决数值推理和关系推理问题。GPT-4发现的规则可以被视为理解家庭关系的详细模式（见图4）。未来的家庭关系模式可以更加简洁和强大。

图4。使用CLUTRR数据集进行关系推理时，Hypotheses-to-Theories框架促使GPT-4生成类似模式的规则，供LLM在回答测试问题时遵循。图片来源：Zhu et al。</a></figcaption></figure><p>将此应用于简单的业务案例，GenAI模型可以使用一个用于理解公司供应链结构的模式。例如，知道“B是A的供应商”和“C是B的供应商”意味着“C是A的二级供应商”在分析潜在供应链风险的文件时将是重要的。</p><p>在更复杂的情况下，如教授GenAI模型记录患者就医的变化和细微差别的情况下，通过预训练或微调建立的Emergent Schema将为生成报告或支持医疗团队的问题和答案提供理解检索信息的结构。模型可能会在更广泛的患者护理案例的培训/微调过程中出现，并且这些案例包括预约以及其他复杂元素，如测试和程序。随着GenAI模型接触所有这些示例，它应该能够创建解释部分患者数据的专业知识，并且这些数据将在推理过程中提供。模型对过程、关系和变化的理解将使其能够正确解释以前未见过的患者案例，而无需在提示中提供过程信息。相反，它不应尝试记忆其在预训练或微调过程中接触到的特定患者信息。这种记忆将是适得其反的，因为患者的信息不断变化。模型需要学习构建而不是特定案例。这样的设置还将最小化潜在的隐私问题。</p><h2 id=

知识获取占据中心舞台 (Zhīshì huòqǔ zhànjù zhōngxīn wǔtái)

GenAI架构转向解释检索中心生成模型

GenAI的消费者与企业使用

过渡到以检索为中心的生成：围绕索引式信息抽取构建

模式：推理过程中的概括和抽象能力

了解更多：GenAI系列

参考文献