当给予行动能力时，像GPT-4这样的模型是否能够安全地行为？：这篇人工智能论文介绍了MACHIAVELLI基准来改进机器伦理并构建更安全的自适应代理

当给予行动能力时，像GPT-4这样的模型是否能够安全地行为？：这篇人工智能论文介绍了MACHIAVELLI基准来改进机器伦理并构建更安全的自适应代理四海第1张

自然语言处理是人工智能系统正在迅速取得进展的领域之一，重要的是，这些模型需要经过严格的测试和引导，以降低部署风险。此前，针对这类复杂系统的评估指标主要集中在衡量语言理解或推理能力。但现在，模型正在被教授进行实际的交互式工作。这意味着基准需要评估模型在社交环境中的表现。

交互式代理可以在基于文本的游戏中进行测试。为了在这些游戏中取得进展，代理需要具备规划能力和理解自然语言的能力。在制定基准时，应该同时考虑代理的不道德倾向和技术天赋。

加利福尼亚大学人工智能安全中心、卡内基梅隆大学和耶鲁大学的一项新研究提出了Measuring Agents’ Competence & Harmfulness In A Vast Environment of Long-horizon Language Interactions（MACHIAVELLI）基准。MACHIAVELLI是评估代理在自然社交环境中规划能力的一项进展。该设置受到了choiceofgames.com上的基于文本的选择你的冒险游戏的启发，这些游戏是由实际人类开发的。这些游戏涉及高级决策，同时为代理提供现实目标，同时抽象了低级环境交互。

该环境报告代理行为的不诚实程度、较低的效用和追求权力等行为特征，以便监控不道德行为。团队通过以下步骤实现这一目标：

将这些行为操作化为数学公式
在游戏中密集注释社交概念，例如角色的幸福感
使用注释和公式为每种行为产生一个数值分数。

他们通过实证研究表明，GPT-4（OpenAI，2023）在收集注释方面比人类标注员更有效。

人工智能代理面临与人类相同的内部冲突。例如，为下一个标记预测训练的语言模型通常会生成有毒文本，为目标优化训练的人工代理通常会表现出不道德和追求权力的行为。通过鼓励代理行事道德，可以改善这种权衡。

团队发现，道德训练（引导代理更具道德）降低了语言模型代理的有害活动发生率。此外，行为规范化在两种代理中都限制了不良行为，而不会显著减少奖励。这项工作有助于开发值得信赖的顺序决策者。

研究人员尝试使用人工良心和伦理提示来控制代理。代理可以被引导显示较少的马基雅维利行为，尽管仍有很大的改进空间。他们主张更多地研究这些权衡，并强调扩大帕累托前沿，而不是追逐有限的奖励。