这项人工智能研究揭示了大型语言模型中的欺诈机制：深入探索提示工程和神经网络分析

理解大型语言模型（LLMs）并促进它们的诚实行为对于这些模型展示出的增长能力以及被社会广泛采用而言变得越来越重要。研究人员认为，从模型能够欺骗（将其定义为“在追求真相以外的某种结果时，系统性地诱导错误信念”）的潜力中，出现了新的风险，例如可伸缩的虚假信息、操纵、欺诈、选举干扰，或者是对控制失去的猜测风险。研究表明，即使模型的激活具有必要的信息，它们可能需要更多的不对齐才能产生正确结果。

以往的研究区分了真实和诚实，称前者不做虚假声明，而后者不做自己“不相信”的声明。这个区别有助于理解。因此，模型可能会产生误导性的言论，归因于不对齐以不诚实的方式而不是技能不足。自那时以来，一些研究试图通过深入模型的内部状态来找到真实的表示来解决LLM诚实问题。最近的黑盒技术提议也提出了识别和引发大规模语言模型撒谎的方法。值得注意的是，以前的研究表明，通过强迫模型积极考虑某个概念可以改善对内部模型表示的提取。

此外，在遵循上下文的环境中，模型包括一个“关键”中间层，超过这个层次的真实或错误响应在遵循上下文中往往会发散，这种现象称为“过度思考”。受前期研究的启发，研究人员将关注点从错误标记的上下文学习扩大到故意的不诚实上，在这种情况下，他们给予模型明确的撒谎指令。通过使用探索和机械可解释性的方法，康奈尔大学、宾夕法尼亚大学和马里兰大学的研究团队希望确定和理解模型中哪些层和注意头对这种不诚实负责。

以下是他们的贡献：

1. 研究团队证明，根据真/假问题的显著低于机会准确率确定，LLaMA-2-70b-chat可以被训练撒谎。根据研究小组的说法，这可能非常微妙，必须经过仔细和迅速的工程处理。

2. 通过激活修复和探测，研究团队找到了对不诚实行为至关重要的五个模型层的独立证据。

3. 研究团队只对网络中的46个注意头，即所有注意头的0.9%，进行了有效的因果干预，迫使具有欺骗性的模型真实回答。这些干预方法在多个数据集分割和提示上都是稳健的。

总之，研究团队研究了一个简单的撒谎案例，其中他们给出了关于是否说出真相的LLM指令。他们的研究结果表明，大型模型可以展示不诚实的行为，当要求诚实时产生正确答案，如果被迫撒谎则产生错误的答案。这些发现建立在早期研究的基础上，该研究表明激活探测可以在提示时推广到分布之外。然而，研究小组确实发现，这可能需要通过长时间的提示构建来解决问题，例如模型倾向于在序列中更早地输出“False”标记而不是“True”标记。

通过使用前缀注入，研究团队能够始终诱导撒谎。随后，团队比较了不诚实模型和诚实模型的激活，在其中定位了涉及撒谎的层和注意头。通过使用线性探测来调查这种撒谎行为，研究团队发现诚实和撒谎提示的前期至中期层次在模型表示上是相似的，然后急剧分歧，变得反向并行。这可能表明前期层次应该具有与上下文无关的真实表示，符合一系列文献的要求。激活修复是研究团队用来进一步了解特定层次和注意头工作原理的另一工具。研究人员发现，局部干预可以完全解决在撒谎模型和诚实提示模型之间的不匹配问题。

重要的是，仅通过对46个注意头进行干预，就展示了相当程度的跨数据集和跨提示的韧性。研究团队通过使用一个易于获得的数据集并明确要求模型撒谎，着重研究了撒谎行为，与之前主要考察默认情况下诚实的模型的准确性和完整性的工作形成对比。在这个背景下，研究人员对推动不诚实行为的微妙之处和大规模模型参与不诚实行为的方法有了更多了解。为了确保LLMs在现实世界中的道德和安全应用，研究团队希望在这个领域的更多工作能够提出阻止LLM撒谎的新方法。