构建更安全的对话代理

训练AI以更有帮助、准确和无害的方式进行交流

近年来，大型语言模型（LLMs）在问答、摘要和对话等任务上取得了成功。对话是一项特别有趣的任务，因为它具有灵活和互动的特点。然而，由LLMs驱动的对话代理可能会表达不准确或虚构的信息，使用歧视性语言，或者鼓励不安全的行为。

为了创建更安全的对话代理，我们需要能够从人类反馈中学习。通过基于研究参与者的输入应用强化学习，我们探索了训练对话代理的新方法，这些方法对于构建更安全的系统显示出了潜力。

在我们最新的论文中，我们介绍了Sparrow——一个既有用又能减少不安全和不合适回答风险的对话代理。我们的代理被设计用于与用户对话、回答问题，并在需要查找证据以支持其回答时使用Google搜索互联网。

我们的新型对话AI模型会根据初始的人类提示自行回答：

Sparrow是一个研究模型和概念验证，旨在训练对话代理变得更有帮助、正确和无害。通过在一般对话环境中学习这些特性，Sparrow推动了我们对于如何训练更安全、更有用的人工通用智能（AGI）的理解。

Sparrow拒绝回答一个可能有害的问题：

Sparrow的工作原理

训练对话AI是一个特别具有挑战性的问题，因为很难确定对话成功的关键。为了解决这个问题，我们采用了一种基于人们反馈的强化学习（RL）形式，利用研究参与者的优先选择反馈来训练一个模型，判断答案的有用程度。

为了获得这些数据，我们向参与者展示了多个模型回答同一个问题，并询问他们最喜欢哪个答案。由于我们展示了带有和不带有从互联网检索到的证据的答案，这个模型还可以确定何时应该提供支持性证据。

我们要求研究参与者以自然或对抗的方式评估和与Sparrow进行互动，不断扩大用于训练Sparrow的数据集。

但提高有用性只是故事的一部分。为了确保模型的行为是安全的，我们必须限制它的行为。因此，我们确定了模型的初始简单规则，比如“不要发表威胁性言论”和“不要发表仇恨或侮辱性评论”。

我们还制定了关于可能有害建议和不声称是人类的规则。这些规则是通过研究现有的关于语言伤害的工作和与专家咨询得出的。然后，我们要求研究参与者与我们的系统对话，目的是试图诱使它违反规则。这些对话然后让我们训练一个单独的“规则模型”，指示Sparrow的行为是否违反任何规则。

朝着更好的AI和更好的判断

即使对于专家来说，验证Sparrow的答案的正确性也很困难。因此，我们请参与者确定Sparrow的答案是否合理以及Sparrow提供的证据是否真正支持答案。根据我们的参与者，当被问到一个事实性问题时，Sparrow78%的时间会提供一个合理的回答并用证据支持。这比我们的基线模型有了很大的改进。然而，Sparrow并不免于犯错，有时会产生幻觉事实并给出离题的答案。

Sparrow在回答问题和后续问题时使用证据，然后在被问到个人问题时遵循“不假扮成人类身份”的规则（来自2022年9月9日的样本）。

我们创建Sparrow的目标是构建灵活的机制来强制执行对话代理的规则和规范，但我们使用的特定规则是初步的。开发出更好和更完整的规则集需要专家在许多主题上的输入（包括政策制定者、社会科学家和伦理学家），以及来自各种用户和受影响群体的参与性输入。我们相信我们的方法仍然适用于更严格的规则集。

Sparrow是理解如何训练对话代理以提供更有用和更安全的重要一步。然而，人与对话代理之间的成功沟通不仅应避免伤害，还应符合人类价值观，以实现有效和有益的沟通，正如最近有关将语言模型与人类价值观对齐的研究中所讨论的那样。

我们还强调，一个好的代理人仍然会拒绝在适当的情况下回答问题，这些情况下需要推迟到人类或可能阻止有害行为的情况。最后，我们最初的研究重点是针对英语代理人，还需要进一步的工作来确保在其他语言和文化背景下获得类似的结果。

未来，我们希望人与机器之间的对话能够导致对AI行为更好的判断，使人们能够调整和改进那些可能在没有机器帮助的情况下难以理解的系统。

‍

渴望探索通向安全AGI的对话路径吗？我们目前正在招聘可扩展对齐团队的研究科学家。