制作可以查找信息的语言模型
在本文中,我们将探讨“检索增强生成”(RAG)策略,该策略允许我们向大型语言模型提供最新和相关的信息。我们将先了解理论,然后设想自己是餐馆经理;我们将实现一个系统,让我们的顾客可以与人工智能交流我们的菜单、季节活动和一般信息。
谁会从这受益?对自然语言处理(NLP)感兴趣的任何人。
这篇文章有多高级?这是一个非常强大但非常简单的概念;适合初学者和专家。
先决条件:对大型语言模型(LLM)有一定了解会有所帮助,但不是必需的。
问题的核心
训练LLM是非常昂贵的;著名的Chat GPT-3仅计算资源就花费了320万美元。如果我们开设了一家新餐厅,并希望使用LLM来回答关于菜单的问题,如果我们不必每次推出新的季节沙拉时都花费数百万美元,那将是很棒的。我们可以进行较小的训练步骤(称为微调),试图使模型学习少量高度特定的信息,但这个过程仍可能需要数百至数千美元。
LLM的另一个问题是它们的置信度;有时它们以绝对的确定性说出明显错误的话(常称为幻觉)。因此,很难确定LLM获取信息的来源,并确定该信息的准确性。如果一个有过敏反应的顾客询问某道菜是否含有坚果,如果我们能确保我们的LLM使用准确的信息,这样我们的顾客就不会发生过敏休克,那将是很棒的。
律师史蒂文·A·施瓦茨通过使用ChatGPT陷入了麻烦,结果在一份法律文件中引用了六起虚假案例。 – 幻觉行为的一个著名例子。 来源