Press "Enter" to skip to content

在RLHF中真的需要强化学习(RL)吗?斯坦福大学的新研究提出了DPO(直接偏好优化):一种简单的训练范式,用于在没有RL的情况下通过偏好来训练语言模型

在RLHF中真的需要强化学习(RL)吗?斯坦福大学的新研究提出了DPO(直接偏好优化):一种简单的训练范式,用于在没有RL的情况下通过偏好来训练语言模型 四海 第1张在RLHF中真的需要强化学习(RL)吗?斯坦福大学的新研究提出了DPO(直接偏好优化):一种简单的训练范式,用于在没有RL的情况下通过偏好来训练语言模型 四海 第2张

当大规模数据集上进行训练时,巨大的无监督语言模型获得了令其创造者惊讶的能力。然而,这些模型是根据具有各种动机、目标和能力的人们产生的信息进行训练的。并非所有这些雄心壮志和能力都可以模拟。从其庞大的信息和技能中精心选择模型的期望响应和行为,以创建可靠、有效和可管理的系统非常重要。

斯坦福大学和CZ研究人员在不使用显式奖励建模或强化学习的情况下,展示了如何优化语言模型以符合人类喜好。他们的工作表明,目前方法采用的基于强化学习的目标可以通过一个简单的二元交叉熵目标进行精确优化,从而大大简化了偏好学习过程,并展示了如何在实践中实现这一目标。

他们提出了直接偏好优化(DPO)算法。这个新算法隐式地实现了现有RLHF算法(通过KL散度约束的奖励最大化)的相同目标,但更容易构建和训练。虽然DPO更新在直觉上增加了首选回复与非首选回复的对数比率,但它还包括一个动态的、每个示例的重要性权重,使模型不会退化。

与其他算法一样,DPO使用理论偏好模型评估奖励函数与实证偏好数据的一致性。而传统方法是使用偏好模型定义一个偏好损失来训练奖励模型,DPO则是通过变量开关来训练最大化学习奖励模型的策略。因此,在训练过程中,DPO可以基于人类对模型响应的偏好数据集优化一个具有简单二元交叉熵目标的策略,而无需显式学习奖励函数或从策略中采样。

该研究结果表明,DPO在情感调节、摘要和对话等各种任务上,与PPO-based RLHF等最先进方法一样有效。58%的人更喜欢DPO摘要而不是PPO摘要(人类评估),并且61%的人更喜欢DPO摘要而不是测试集中的人类评估。在Anthropic HH上,60%的时间内,人们更倾向于选择DPO的单轮响应而不是选择性完成。

团队表示,DPO在仅基于人类喜好训练语言模型之外,还有许多潜在用途。例如,它可以训练各种模态的生成模型。

所提出的模型评估最高达到了60亿个参数,但团队认为进一步的工作应该探索将DPO扩展到具有数量级更大数据的最先进模型。研究人员还发现,提示对GPT-4的计算胜率有影响。未来,他们计划研究从机器中引导专家意见的最有效手段。

Leave a Reply

Your email address will not be published. Required fields are marked *