介绍OpenAI的超对齐技术四海第1张

OpenAI在媒体上频频亮相，不仅因为发布了ChatGPT、GPT-3和GPT-4等AI系统，还因为与ChatGPT等AI系统的道德问题以及与当今世界社会经济问题的关系。首席执行官Sam Altman多次就AI的安全问题发表讲话，例如在美国参议院委员会上表示：

“我认为，如果这项技术出了问题，后果可能会很严重……我们希望在这个问题上发表明确的意见。我们希望与政府合作，防止这种情况发生。”

话虽如此，OpenAI团队已经采取了自己的措施。许多人担心超智能，即一种比人类智能更高的AI系统。有些人认为，技术可以解决世界上许多当前的问题，然而，由于对此几乎没有信息或理解，很难权衡利弊。

也许现在谈论超智能为时尚早，但这绝对是一个需要讨论的话题。最好的做法是在问题变得更加难以解决之前，尽早管理这些潜在的风险。

OpenAI的方法

OpenAI表示他们目前还没有超智能AI的解决方案，但这是他们正在与新团队Superalignment合作研究的内容。他们目前正在使用人类反馈的强化学习等技术，这在很大程度上依赖于人类对AI的监督。然而，人们对于未来人类可能无法可靠监督AI的挑战以及解决这个问题的新科学突破存在担忧。

话虽如此，OpenAI正在考虑构建一个能够从人类反馈中学习并协助人类评估AI的人类水平自动对齐研究人员，以及解决其他对齐问题。OpenAI已经将他们到目前为止获得的计算资源的20%用于这一努力，以迭代地对齐超智能。

为了使超对齐团队在这方面取得成功，他们需要：

1. 发展可扩展的训练方法

他们计划利用其他AI系统来帮助评估其他AI系统，同时能够更好地理解模型如何泛化监督，而人类无法监督。

2. 验证产生的模型

为了验证系统的对齐结果，OpenAI计划自动搜索有问题的行为，以改进模型的鲁棒性，同时进行自动的可解释性研究。

3. 对齐流程进行压力测试

测试，测试，测试！OpenAI计划通过有意训练不对齐的模型来测试整个对齐过程。这将确保所使用的技术能够检测到任何形式的不对齐，特别是最严重的对抗性测试。

OpenAI已经进行了初步实验，结果良好。他们计划通过有用的指标和对模型的持续研究来进一步完善这些实验。

总结

OpenAI的目标是创建一个未来，其中AI系统和人类可以和谐共处，互不感到受到威胁。超对齐团队的发展是一个雄心勃勃的目标，然而，它将为更广泛的社区提供关于机器学习的使用和创造安全环境的证据。Nisha Arya是一位数据科学家、自由技术作家和VoAGI的社区经理。她特别感兴趣提供数据科学职业建议、教程以及理论性的数据科学知识。她还希望探索人工智能在延长人类寿命方面的不同方式。作为一个热心的学习者，她希望扩大自己的技术知识和写作能力，同时帮助指导他人。