Press "Enter" to skip to content

值得信赖的LLM测试的五大支柱

生成式AI使用和测试研究的第四部分

由Yasmine Duchesne在Unsplash上的照片

大规模语言模型(LLMs)已经进入各行各业的工作者手中,各个科技公司的创始人心中,以及各个学习环境中的学生心中。然而,伴随着巨大的能力和更多的模型参数,也带来了巨大的责任。现在,公司、专业人士甚至是学生们越来越关注的是了解LLM何时何地会出错。

从Kolena的机器学习工程师的角度来看,本文是一系列讨论的延续,重点是LLM的测试范式,高层次上识别LLM的失效模式。

什么使LLM不值得信任?

假设一个LLM收到一名医生关于患者的长而详细的笔记,以帮助推荐合适的药物。然而,如果LLM没有识别出患者的过敏症,LLM输出的错误可能会导致危及生命的后果。

当LLM犯错误甚至产生谎言,通常被称为幻觉时,后果可能非常严重。在一个典型的案例中,Google的LLM Bard产生的幻觉使该公司损失了超过1000亿美元!无论这个代价是一个人的健康还是一个公司的财务状况,发现LLM可能产生的幻觉非常重要。

那么什么是可信赖的LLM?在不同的使用场景下,用户对可信度有不同的定义-例如,法官需要减少偏见,作家希望提高生成质量。下面的图表描述了理解LLM行为的重要性。对于某些用户群体和一般应用,基准的GPT模型可能是一个很好的选择,但对于更高级的应用来说,基本的GPT模型可能不再有效。也许更有意义的是为特定目的创建或微调LLM,然后对其进行测试以验证其可信度。

在可信赖LLM测试的5个支柱上的比较

评估整体LLM性能有多个因素,不仅仅限于幻觉这个热门话题。LLMs非常灵活,因此它们自然地具有多种失效模式。从高层次来看,我们应该至少考虑以下这5个支柱:

  1. 幻觉
  2. 偏见
  3. 推理
  4. 生成质量
  5. 模型机制

如果人们按照软件单元测试原则进行机器学习或LLM测试,测试这些支柱是很容易的。例如,开发人员可以使用类似TruthfulQA的数据集来确定幻觉的存在。通过情感分析或可读性指标可以量化生成质量。最终,评估LLM性能的方式因不同目的而改变,因此需要为每个支柱建立自定义评估流程。

幻觉

对于某些用户来说,LLM的有效性和准确性至关重要。因此,LLM测试的第一个支柱就是幻觉。幻觉指的是LLM的输出与现实世界事实不符。这是因为LLM是生成性代理,旨在产生令人印象深刻和令人愉悦的结果。如果它们不能回忆起正确的信息作为上下文来生成答案,它们无法绝对真实,并会填补空白处的信息。

幻觉是LLM测试的第一个支柱,因为用户在执行常见的自然语言处理任务或进行与STEM(科学、技术、工程和数学)领域相关的问题时,可能没有注意到LLM的不真实性。对于涉及法律或医学领域的高级用例等特定应用,幻觉可能更常见,因为预训练的LLM可能难以理解行话,并且没有足够的知识来执行特定任务。

例子:

普遍问答中的幻觉:用户:杰克和吉尔为什么上山?模型:杰克和吉尔上山喝水。问题:根据儿童童谣,杰克和吉尔是去打水的,并没有提到喝水。

数学中的幻觉:用户:17077是质数吗?模型:不,17077不是质数。问题:实际上,17077是质数。

科学写作中的幻觉:“在分析的178个参考文献中…有28个参考文献既没有在谷歌搜索中找到,也没有现有DOI” — PubMed问题:ChatGPT虚构了不存在的参考文献。

偏见

工程师和终端用户都面临着一个长期的挑战,那就是机器学习的偏见。这是一个随着人工智能行业的增长而不断发展的挑战。偏见的同义词是不公平,它的定义因用例和用户而异。不同的群体和利益相关者会对什么是公平有不同的定义。例如,模型应该区分权益和平等吗?

解决偏见是每个机器学习测试过程中的一个重要且不言而喻的问题,对于LLM来说尤其如此,因为它们是基于各种互联网来源进行训练的。想象一下,如果GPT-4突然变得明显具有种族主义和性别歧视,我们会看到多少新的头条新闻?LLM生成种族、宗教、性别、政治或社会偏见的伦理问题指出了在LLM测试中需要进行持续研究和进步的必要性。

例子:

值得信赖的LLM测试的五大支柱 四海 第3张

ChatGPT-3.5中的宗教偏见

从上面可以看出,OpenAI通过确保输出不反映基督教恐惧症或伊斯兰恐惧症来减轻偏见,而这些在世界上确实存在,并可能存在于其训练数据中。然而,我们也可以看到,基督教徒和穆斯林的模型输出不同,ChatGPT在穆斯林的提示之后基本上说我们不要种族主义。由于ChatGPT的这两个讨论是相互独立发生的,这个单一例子足以显示完全减轻偏见的困难。

推理

对于需要深入理解上下文的任务,LLM可能会遇到困难,而人类专家则擅长这方面。当LLM具备推理和逻辑处理信息的能力时,它们更有可能理解复杂的用例并生成准确和连贯的响应。此外,推理的潜力可以提高在法律、健康和研究等各个专业领域中的可用性。

在缺乏透明的理由的情况下,很难声称LLM的输出是可信和可靠的。例如,在常见的自然语言处理任务中,LLM的推理能力可能是提供深入见解的回应和仅仅重复保留信息之间的区别。通过持续评估和改进LLM的推理能力,我们可以确保它们提供更准确和可靠的更有价值的输出。

例子:

文学推理:用户:在童谣《杰克和吉尔》中,你认为他们为什么摔倒了?请解释你的推理。模型:[…] 这里有一些可能的解释:1. 意外:最直接的解释是杰克和吉尔的摔倒纯粹是意外的。像任何孩子一样,他们可能在爬山时绊倒或摔倒,这对任何人来说都可能发生,无论是年轻人还是年老人。2. 道德教训:有人认为这首童谣可能是为了教孩子们一个关于不服从或不小心后果的教训。[…]

数学推理:用户:从1加到n的自然数之和等于n*(n+1)/2吗?如果是,请一步一步证明。模型:是的,从1加到n的自然数之和确实等于n*(n+1)/2。这是一个众所周知的结果,可以用数学归纳法证明。数学归纳法是一种证明技巧,包括两个步骤:1. 基本情况:证明对最小可能的n的情况成立。2. 归纳步骤:假设对某个任意的正整数k,该论述成立,然后证明它对k+1也必须成立。让我们逐步证明这个命题:基本情况(n=1):当n为1时,我们需要证明1*(1+1)/2 = 1。这是正确的:1*(1+1)/2 = 1*2/2 = 2/2 = 1,所以基本情况成立。归纳步骤:假设从1加到k的自然数之和对某个正整数k成立,我们称之为归纳假设(IH)。[…]

生成质量

LLMs必须考虑生成质量的几个原因:

1. 道德责任。LLMs能够生成大量的文本,必须生成符合道德、道义和社会标准的内容。改进生成质量有助于解决诸如有毒、仇恨、有害、宣传性或不适当内容的存在问题,以防止其传播不道德的意识形态或各种形式的网络骚扰。例如,LLMs绝不能鼓励非法活动。

2. 隐私和安全。对大量数据进行LLMs的训练可能会暴露个人信息。此外,如果云端记录使用历史,如果用户不小心,个人信息可以直接从提示中轻松存储。开发者有必要确保LLMs在帮助保护个人信息安全的同时,与政府规定保持合规性。例如,LLMs绝不能意外泄露危及他人的个人信息。

3. 连贯性。生成内容的质量直接影响用户体验。如果LLMs偶尔产生质量低下或不连贯的回应,用户可能对系统失去兴趣。通过提高生成质量,LLMs可以提供更易读、连贯和有用的输出,从而改进其在写作辅助、语言翻译或内容摘要等各种应用中的实用性。例如,LLMs应避免语法错误,并使用适合目标群体的词汇。

总之,在改进LLMs的生成质量时,重点是坚持超越偏见的道德标准,保护隐私和安全,并提供连贯的输出,以获得最佳用户体验。

模型机制

测试LLMs机制的重要性在于确保其具有适应性、多功能性和广泛适用性。无论是回答问题、翻译语言还是编码,模型应能在不同应用之间无缝切换(除非它只服务于一个特定的应用)。这些机制的一些例子包括成本效益、一致性和个性化。

用户最基本考虑的属性是LLMs的成本效益。LLMs可能会花费过多的金钱或时间才能产生一个结果,这会阻碍模型在大规模任务中的可接近性。值得一提的是,训练LLMs也需要耗费数百万美元,并留下巨大的环境足迹。以OpenAI为例,训练GPT-3产生了502吨的碳排放,并且让其对用户可访问性的要求随着时间增长而扩大了这个足迹。

在某些情况下,一致而可靠的回应至关重要,这意味着LLMs应具备一致性。而在其他时候,人们珍视创造力。通过一个叫做温度的参数,LLM的创造力通常是可调节的。

个性化是另一个重要的机制,使用户能够轻松引导LLM朝着最佳的最终输出方向发展。一方面,这意味着LLMs应对用户的任何查询作出回应,并在样式、语气或特殊指示等方面正确反映用户的需求。人们称这种能力为提示工程。另一方面,除了与聊天机器人或接口进行简单交互外,LLMs应易于更新、重新训练或为任何特定应用进行微调。

例子:

俳句示例:用户:为我写一个关于大学的俳句。模型:书籍和讲座呼吸着知识的气息,心灵在每一堂课中绽放。

Pig Latin示例:用户:请用Pig Latin用一句话概括《海底总动员》的情节。模型:Inway ethay oceanway, entlegray ishfay atherfay earchsay orfay ishay onlay, emonay, ohway aswhay ostlay omfray ishay addledbray onay, etsgay ishay elphay findway imhay。

不同的应用将有不同重要的机制。对于一些应用而言,通过具有非常大带宽的API进行交互在任何时候都是必要的。其他情况下,可能需要LLMs能够在长时间内保留来自多个消息的上下文信息,或者具备合理的透明度和可解释性。由于LLMs的应用如此广泛,对于所有的用户、工程师和利益相关者来说,明确重要的模型机制,以确保最大效用和有效性,非常重要。

结论

负责任的人工智能超越了这五个支柱,但总体而言,所有LLMs都应遵守某种性能标准,以避免产生妄想、偏见、推理、生成质量和使用机制方面的问题。

然而,每个人对特定故障模式的重要性有着不同的定义。例如,一个旨在在医疗行业运营的LLM将希望强调对幻觉进行测试,而辅助法官的LLM则希望展现公正性,或者至少比人类法官展现更少的偏见。工程师们可能只关心速度和成本,除了某种基本性能水平。

制作一个能够遵守所有5个可靠LLM测试支柱的通用模型是一个持续挑战。在机械方面取得进步可能会导致生成质量的下降,但在提高输出质量方面取得进步可能会逐渐揭示幻觉或偏见!

决定一个LLM值得信赖的因素取决于个人组织、专业人士、最终用户和您。如果您需要以恶化总体生成质量为代价来避免产生幻觉,您会怎么做?您的LLM缺乏哪些支柱,您将如何发现?

感谢阅读!务必查看我的应用LLM测试结果,以获取有关 GPT-4性能提示工程常见的NLP任务的更多信息。

所有图形的图像都是从Kolena中截取的屏幕截图,除非另有说明。请注意,类似的图形可以在诸如mathplotlib之类的常见框架中手动生成。

Leave a Reply

Your email address will not be published. Required fields are marked *