一项新的人工智能研究研究了大型语言模型在多项选择题中对选项顺序的敏感性的问题

一项新的人工智能研究研究了大型语言模型在多项选择题中对选项顺序的敏感性的问题四海第1张

大型语言模型（LLMs）因其在各种任务上的出色表现而受到了大量关注。它们的开发方式使它们经常在一些情况下超过监督模型甚至人类。尽管它们的能力令人惊叹，但先前的研究表明，某些功能约束可能会影响它们在实际世界中的实用性。这些模型对提示语言的细微差别、少量示范以及这些示范的组织的敏感性构成了一个重要的性能问题。这种敏感性阻碍了对LLMs能力的客观评估。

在Megagon Labs的最新研究中，一组研究人员对LLMs在处理多项选择题中的鲁棒性进行了研究，这是一种用于测试其推理和事实检索能力的流行任务。调查的主要焦点是LLMs对多项选择测试中选项重新排列的响应。经过深入研究后发现，当选项被改变时，跨多个基准测试的性能差异明显，范围从大约13%到75%不等。

经过深入分析后提出了一个假设，即当LLMs在对预测的前2或前3个选项不确定时，观察到的敏感性会发生。由于问题措辞带来的位置偏见，一些选项的顺序可能有利于这些前选项中的某些预测。在前两个选项中可以看到强调或减弱模型对某些选项放置的倾向的有趣模式。

为了突出偏见，团队采用了一种最佳策略，即将前两个列表中的第一个和最后一个替代方案放在一起以强调偏见。另一方面，为了抵抗偏见，建议将这些选择分散在周围的选项中。进行了一系列研究来验证假设的敏感性。此外，还使用了两种不同的校准技术来改进LLMs的预测。在多个模型和基准测试中看到了高达8个百分点的性能提升，这带来了显着改进。

该研究提出了一些问题，包括敏感性的程度，即LLMs在MCQs选项顺序方面受到多大程度的影响，导致LLMs敏感性的因素以及如何增强LLMs对选项顺序的鲁棒性。使用GPT-4和InstructGPT在五个不同的MCQ基准测试上进行了实验证明第一个问题。在零样本情况下发现了高达75%的敏感性差距。关于第二个问题，数据表明位置偏见是导致LLMs敏感性的原因，因为当LLMs不确定最佳选项时，它们倾向于偏好特定的放置方式。为了回答最后一个问题，研究表明使用两种不同的校准技术可以将LLMs的性能提高高达8个百分点。

总之，这项研究强调了面对LLMs对提示方面和排列方式的敏感性的必要性。通过研究LLMs在多项选择题中对选项重新排序的细微差别，它揭示了LLMs的决策过程，这肯定可以提高LLMs在实际情况下的可用性和可靠性。