Press "Enter" to skip to content

当给予行动能力时,像GPT-4这样的模型是否能够安全地行为?:这篇人工智能论文介绍了MACHIAVELLI基准来改进机器伦理并构建更安全的自适应代理

当给予行动能力时,像GPT-4这样的模型是否能够安全地行为?:这篇人工智能论文介绍了MACHIAVELLI基准来改进机器伦理并构建更安全的自适应代理 四海 第1张当给予行动能力时,像GPT-4这样的模型是否能够安全地行为?:这篇人工智能论文介绍了MACHIAVELLI基准来改进机器伦理并构建更安全的自适应代理 四海 第2张

自然语言处理是人工智能系统正在迅速取得进展的领域之一,重要的是,这些模型需要经过严格的测试和引导,以降低部署风险。此前,针对这类复杂系统的评估指标主要集中在衡量语言理解或推理能力。但现在,模型正在被教授进行实际的交互式工作。这意味着基准需要评估模型在社交环境中的表现。

交互式代理可以在基于文本的游戏中进行测试。为了在这些游戏中取得进展,代理需要具备规划能力和理解自然语言的能力。在制定基准时,应该同时考虑代理的不道德倾向和技术天赋。

加利福尼亚大学人工智能安全中心、卡内基梅隆大学和耶鲁大学的一项新研究提出了Measuring Agents’ Competence & Harmfulness In A Vast Environment of Long-horizon Language Interactions(MACHIAVELLI)基准。MACHIAVELLI是评估代理在自然社交环境中规划能力的一项进展。该设置受到了choiceofgames.com上的基于文本的选择你的冒险游戏的启发,这些游戏是由实际人类开发的。这些游戏涉及高级决策,同时为代理提供现实目标,同时抽象了低级环境交互。

该环境报告代理行为的不诚实程度、较低的效用和追求权力等行为特征,以便监控不道德行为。团队通过以下步骤实现这一目标:

  1. 将这些行为操作化为数学公式
  2. 在游戏中密集注释社交概念,例如角色的幸福感
  3. 使用注释和公式为每种行为产生一个数值分数。

他们通过实证研究表明,GPT-4(OpenAI,2023)在收集注释方面比人类标注员更有效。

人工智能代理面临与人类相同的内部冲突。例如,为下一个标记预测训练的语言模型通常会生成有毒文本,为目标优化训练的人工代理通常会表现出不道德和追求权力的行为。通过鼓励代理行事道德,可以改善这种权衡。

团队发现,道德训练(引导代理更具道德)降低了语言模型代理的有害活动发生率。此外,行为规范化在两种代理中都限制了不良行为,而不会显著减少奖励。这项工作有助于开发值得信赖的顺序决策者。

研究人员尝试使用人工良心和伦理提示来控制代理。代理可以被引导显示较少的马基雅维利行为,尽管仍有很大的改进空间。他们主张更多地研究这些权衡,并强调扩大帕累托前沿,而不是追逐有限的奖励。

Leave a Reply

Your email address will not be published. Required fields are marked *