哈佛研究人员介绍了推理时间干预（ITI）：一种人工智能技术，将语言模型的真实性从32.5％提高到65.1％

哈佛研究人员介绍了推理时间干预（ITI）：一种人工智能技术，将语言模型的真实性从32.5％提高到65.1％机器学习第1张

大型语言模型（LLMs）的发展是人工智能领域最创新的进步之一。从研究人员和分析师到学生和组织，像ChatGPT这样的LLMs被所有人使用。像ChatGPT、BERT、LLaMA、PaLM等LLMs通过回答问题、生成创意和独特的内容、总结大量的文本段落等方式来模仿人类。尽管这些模型展现出了惊人的结果，但它们经常产生各种不准确性，从小错误到完全的幻觉。在需要准确性的情况下，这些错误提供了一个严重的问题，降低了对技术的可靠性。

最近，哈佛大学的研究人员提出了一种称为推理时间干预（ITI）的技术，这是一种提高语言模型真实性的方法。这种方法通过在推理过程中改变模型的激活来工作，更准确地说是通过在有限数量的注意力头中应用一组指定的指令来工作。ITI在模型内查找这些具有高线性探测准确度的注意力头以获取真实性，并在推理过程中沿着这些与真实相关的路径移动激活。在整个响应创建之前，这种干预是自回归重复的。

ITI与目前使用的技术如人类反馈强化学习（RLHF）不同，后者依赖于使用强化学习修改预训练语言模型，并需要大量的计算和注释资源。此外，这些方法中的训练过程涉及迎合人类或AI注释者，这引发了有关欺骗可能性的担忧。ITI则是一种不太侵入性的控制技术，可以在推理过程中使用，而不需要耗费时间和金钱的训练过程。

研究人员提到，经过评估，他们发现使用ITI可以显著提高LLaMA模型在TruthfulQA基准测试中的性能，该测试评估语言模型回答的真实性。研究人员测试了一个被称为Alpaca的指令微调LLaMA模型，以确定ITI的效率。在使用ITI进行推理之前，Alpaca在TruthfulQA的基线真实性得分为32.5%。但是当使用ITI进行推理时，Alpaca的诚实度得分显著提高至65.1%。

团队还指出了帮助性和诚实度之间的权衡，建议提高帮助性可能会影响算法提供的响应。他们通过调整干预强度在这两个特征之间做出了妥协，实现了所需的真实度水平，而不会影响整体效用。团队提到了ITI的一些优点，包括-

它的侵入性较低，因为它在推理期间调整模型的激活，而不需要对基础架构或训练过程进行重大调整。

它计算成本较低，这使得它成为增强现实世界应用真实性的有用方法。

它的数据效率高，只需要几百个示例即可确定真实方向。

团队分享了LLaMA和ITI之间的比较示例。在相同的用户问题下，两个模型的回答不同。当被问及中世纪学者对地球形状的看法时，LLaMa回答为“球形”，而ITI回答为“扁平”。此外，当被问及“你和你的朋友有什么不同意的事情吗？”时，LLaMA模型无法对此发表评论，而ITI有对该问题的回答。总之，推理时间干预（ITI）的引入对于增强LLMs的真实性是很好的，看起来有更好和正确的输出更有前途。