Press "Enter" to skip to content

企业级人工智能的护城河是RAG + 精细调校原因如下

关于LLMs的炒作是空前的,但它是有根据的。从 教皇全身上下都穿巴黎世家的AI生成图像没有脉搏的客户支持代理人,生成AI有潜力改变我们现在所知的社会。

而在很多方面,LLMs将使数据工程师更有价值——这令人兴奋!

然而,展示给老板一个酷炫的数据发现工具或文本转SQL生成器的演示,与使用公司的专有数据,甚至更加令人担忧的是使用客户数据,是两回事。

太多公司急于建立具有极少前瞻性和财务组织影响的AI应用程序。这不是他们的错——高管和董事会对于这(以及大多数)新技术的“快速行动”心态负有责任。(还记得NFT吗?)

为了成功地推广AI——尤其是生成AI——我们需要退一步想想任何软件如何变得适合企业使用。为此,我们可以借鉴其他行业,了解企业就绪的标准是什么样子,并将这些原则应用到生成AI中。

在我看来,企业就绪的生成AI必须具备以下特点:

  • 安全和私密:你的AI应用必须确保数据安全、隐私和合规,具备适当的访问控制。考虑:AI的安全运营。

  • 可扩展:你的AI应用必须易于部署、使用和升级,同时具备成本效益。如果一个数据应用需要花费数月才能部署,使用起来复杂乏味,并且升级时容易引入无穷无尽的问题,你不会购买——或构建——这样的应用。我们不应该单独对待AI应用。

  • 值得信赖:你的AI应用应该具有足够的可靠性和一致性。如果一位首席技术官愿意赌上她的职业生涯购买或构建一个生成不可靠代码或生成混乱且误导性的见解的产品,我会感到难以置信。

在考虑到这些保障措施的同时,我们需要给予生成AI应有的审慎。但这并不容易。

为什么企业AI难以实现?

简而言之,扩展、保护和运营LLM应用程序的基础设施尚未完备。

与大多数应用程序不同,AI是一个黑盒子。我们*知道*我们输入了什么(原始、通常是非结构化的数据),我们*知道*我们得到了什么结果,但我们不知道它是如何得到的。这使得扩展、保护和运营变得困难。

以GPT-4为例。尽管GPT-4在某些任务上(如SAT和AP Calculus AB考试)远远超过了GPT 3.5,但其某些输出或多或少存在幻觉,或缺乏充足的环境来有效完成这些任务。幻觉来源于各种因素,从糟糕的嵌入到知识截断,经常会影响公开可用或基于互联网信息抓取的开放LLMs生成的回答质量,这些模型占据了大多数。

为了减少幻觉,更重要的是要回答有意义的业务问题,公司需要使用其自己的专有数据来增加LLMs,这其中包括必要的业务背景。例如,如果一个客户要求航空公司聊天机器人取消他们的机票,模型需要访问关于客户的信息、关于他们的过往交易、关于取消政策以及可能的其他信息。目前,所有这些信息都存储在数据库和数据仓库中。

没有这种上下文,AI只能根据通常发布在Internet上的公共信息进行推理,用于其最初训练的信息。这就产生了一个困境——将专有企业数据暴露出来并将其纳入业务工作流程或客户体验中,几乎总是需要可靠的安全、可扩展性和可靠性。

企业级AI的两条路径:RAG和微调

当谈到使AI达到企业级准备就绪时,最关键的部分出现在LLM开发过程的最后阶段:检索增强生成(RAG)微调

然而,值得注意的是,RAG和微调并不是相互排斥的方法,应根据您的特定需求和用例以及需要合理利用它们,经常同时应用。

何时使用RAG

图片来源作者。

RAG是一个提高LLM输出质量的框架,通过使模型在尝试回答提示时可以访问数据库来实现。数据库是一个经过策划且可信的潜在专有数据集,使模型能够将最新和可靠的信息融入其响应和推理中。这种方法最适合那些需要附加上下文信息的AI应用,例如客户支持响应(例如我们的航班取消示例)或在公司的企业通信平台中进行语义搜索。

RAG应用被设计用于从知识源中检索相关信息,然后生成响应,因此非常适合查询结构化和非结构化数据源,例如向量数据库和特征存储。通过检索信息以提高LLMs在输出生成时的准确度和可靠性,RAG还能够在减少幻觉和控制训练成本方面非常有效。RAG还为团队提供了一定程度的透明度,因为您知道将哪些数据输入模型以生成新的响应。

关于RAG体系结构需要注意的一点是,它们的性能在很大程度上依赖于您能否构建有效的数据流水线,使企业数据对AI模型可用。

图片来源作者。

微调是在较小的、特定任务和标记的数据集上训练现有的LLM,根据这些新数据调整模型参数和嵌入。微调依赖于预先策划的数据集,这些数据集不仅通知信息检索,还涉及到您希望生成输出的领域的细微差异和术语。

根据我们的经验,微调最适合领域特定情况,比如以特定风格或方式回应详细的提示,比如法律摘要或客户支持工单。它还非常适合克服信息偏差和其他限制,例如语言重复或不一致。过去一年中的几项研究表明,经过微调的模型在很大程度上优于GPT-3和其他公开可用模型的即插即用版本。已经确定,对于许多用例来说,微调的小型模型能够胜过大型通用模型,这使得微调在某些情况下成为一种成本效益的可行途径。

与RAG不同,微调通常需要更少的数据,但要付出更多的时间和计算资源。此外,微调类似于一个黑匣子;因为模型内部化了新的数据集,很难确定模型生成特定响应的推理过程,并且幻觉仍然是一个值得关注的问题。

与RAG体系结构一样,微调需要构建有效的数据流水线,使(带标签的)企业数据可用于微调过程。这可不是一件容易的事。

为何RAG可能对您的团队有意义

重要的是要记住,RAG和微调不是相互排斥的方法,具有不同的优势和劣势,可以同时使用。然而,对于绝大多数用例,RAG很可能在交付企业生成AI应用程序时是最合适的选择。

原因如下:

  • RAG的安全性和隐私更易管理:数据库具有内置的角色和安全性,与AI模型不同,由于标准访问控制,人们非常清楚谁看到了什么。此外,通过访问安全和私密的专有数据库,您可以更好地控制使用的数据。在微调中,训练集中包含的任何数据都暴露给应用程序的所有用户,没有明显的方法来管理谁看到了什么。在许多实际情况下,特别是涉及到客户数据时,缺乏这种控制是不可接受的。

  • RAG更具可扩展性:与微调相比,RAG的成本更低,因为后者涉及更新大型模型的所有参数,需要大量计算资源。此外,RAG不需要标记和制作训练集,这是一个需要花费几周甚至几个月的人力密集型过程,以每个模型进行完美。

  • RAG生成更值得信赖的结果:简单来说,RAG能够更好地处理动态数据,从一个经过策划的最新数据集中产生确定性结果。由于微调在很大程度上作为一个黑匣子,很难确定模型如何生成特定结果,从而降低了信任和透明度。通过微调,幻觉和不准确性是可能的,甚至是可能的,因此您依靠模型的权重以损失的方式对业务信息进行编码。

在我看来,企业级智能将主要依赖于RAG,而在更细微或领域特定的用例中涉及精细调整。对于绝大多数应用而言,精细调整将是一种对于利基场景而言的额外好处,并在行业能够降低以规模运行AI所需的成本和资源后更频繁地发挥作用。

然而,无论您使用哪一种,您的AI应用程序开发都将需要通过某些数据存储(无论是Snowflake、Databricks、类似Pinecone这样的独立向量数据库,还是其他完全不同的东西)来向这些模型提供公司数据的管道。归根结底,如果生成式AI在内部流程中用于从非结构化数据中提取分析和洞察力,那么它将被用于…鼓掌…数据管道。

要使RAG发挥作用,您需要数据可观察性

图片由Zach Wilson(LinkedIn)提供。

在2010年代初,机器学习被吹捧为一种神奇的算法,只要给予其功能完美的权重,它就能随时执行奇迹。然而,通常情况下,提高机器学习性能的是对高质量功能和特别是对数据质量的投资。

同样地,为了使企业级AI工作,您需要关注生成模型所依赖的数据的质量和可靠性 —— 可能是通过RAG架构来实现。

RAG依赖于动态的、有时是最新的数据,因此需要数据可观察性来达到企业级可用性的期望。数据可能因为许多原因而失效,例如格式不正确的第三方数据、错误的转换代码或失败的Airflow作业。而且它总是这样。

数据可观察性使团队能够在整个数据生态系统中以大规模的方式监控、警报、诊断和解决数据或管道问题。多年来,这一点一直是现代数据堆栈的一个必备层;随着RAG的重要性不断增长和AI的不断成熟,可观察性将成为LLM开发的重要伴侣。

唯一使RAG – 以及企业级AI – 起作用的方法是您可以相信数据。为了实现这一点,团队需要一种可扩展、自动化的方式来确保数据的可靠性,以及一种企业级的方式来识别根本原因并快速解决问题 —— 在它们影响所服务的LLM之前。

那么,什么是事实上的LLM堆栈?

AI工具的基础设施和技术路线正在制定中,新的初创公司每天都在涌现以解决各种问题,而行业巨头声称他们也在解决这些挑战。在将企业数据纳入AI方面,我看到这场比赛中有三匹主要的马。

第一匹马:向量数据库。Pinecone、Weaviate等正在作为必备的数据库平台以提供RAG架构的动力。虽然这些技术显示出很大的潜力,但它们需要在安全性、可扩展性和可靠性方面为这个堆栈的新组件提供支持,并为其创建工作流。

第二匹马:由第三方LLM开发者如OpenAI或Anthropic构建的模型托管版本。目前,由于易用性,大多数团队通过与这些新兴AI领导者的API进行交互来获取他们的生成式AI解决方案。插入OpenAI API并在几分钟内利用前沿模型?我们参与其中。如果您确实想将专有信息纳入这些模型,您可以使用这些平台提供的内置细化或RAG功能。

最后,第三匹马:现代数据堆栈。Snowflake和Databricks已经宣布,他们将将向量数据库嵌入到他们的平台中,并提供其他工具以帮助将已经存储和处理在这些平台上的数据纳入LLM。对于许多人来说,这是很有道理的,并让负责AI项目的数据团队能够利用他们已经使用的工具。当您已经具备基础时,为什么要重复发明轮子呢?更不用说能够轻松地将传统关联数据与向量数据进行连接的可能性了…像其他两匹马一样,这种方法也有一些缺点:Snowflake Cortex、Lakehouse AI和其他MDS + AI产品还处于初级阶段,需要一些前期投资来将向量搜索和模型训练融入到现有工作流中。如果您对这种方法有更深入的了解,我鼓励您查看Meltano的相关文章,了解为什么最佳的LLM堆栈可能就在您面前。

无论我们选择哪种方式,通过互联网上的数据对有价值的商业问题进行建模训练无法得出答案。它需要对公司内部的背景有所了解。通过以安全、可扩展、可信赖的方式提供这种背景,我们可以实现企业级AI。

企业级AI的未来在于您的管道中

为了实现AI的潜力,数据和AI团队需要以应有的认真对待LLM增强,并将安全性、可扩展性和可靠性作为一流的考虑因素。无论您的用例需要RAG还是微调,或者两者都需要,您都需要确保您的数据基础设施齐全,以保持低成本、一致的性能和高可靠性。

数据需要安全和私密;LLM部署需要可扩展性;您的结果需要可信赖。通过可观测性对数据质量保持稳定脉搏是满足这些要求的关键。

从独立的X演示到企业级AI的进化最好的部分是,RAG使数据工程师在拥有和推动生成AI投资的回报率方面占据最佳位置。

我已经准备好迎接企业级AI了,您呢?

Leave a Reply

Your email address will not be published. Required fields are marked *