Press "Enter" to skip to content

谷歌研究探索:在大型语言模型中,人工智能反馈能否替代人类输入进行有效的强化学习?

谷歌研究探索:在大型语言模型中,人工智能反馈能否替代人类输入进行有效的强化学习? 四海 第1张谷歌研究探索:在大型语言模型中,人工智能反馈能否替代人类输入进行有效的强化学习? 四海 第2张

人类反馈对于改进和优化机器学习模型至关重要。近年来,来自人类反馈的强化学习(RLHF)在将大型语言模型(LLMs)与人类偏好相一致方面被证明非常有效,但是收集高质量的人类偏好标签仍然是一个重大挑战。在一项研究中,Google AI的研究人员试图比较RLHF和从AI反馈中进行强化学习(RLAIF)。RLAIF是一种技术,其中偏好由预训练的LLM标记,而不是依靠人类注释者。

谷歌研究探索:在大型语言模型中,人工智能反馈能否替代人类输入进行有效的强化学习? 四海 第3张

在这项研究中,研究人员在概括任务的背景下直接比较了RLAIF和RLHF。他们的任务是为给定文本的两个候选回答提供偏好标签,利用现成的大型语言模型(LLM)。随后,基于LLM推断得出的偏好,利用对比损失训练了一个奖励模型(RM)。最后一步是通过强化学习技术对策略模型进行微调。上面的图片展示了RLAIF(上)与RLHF(下)的示意图。

谷歌研究探索:在大型语言模型中,人工智能反馈能否替代人类输入进行有效的强化学习? 四海 第4张

上面的图片展示了SFT、RLHF和RLAIF策略为Reddit帖子生成的示例摘要。与未能捕捉关键细节的SFT相比,RLHF和RLAIF生成了更高质量的摘要。

该研究中呈现的结果表明,当以两种不同的方式进行评估时,RLAIF的性能与RLHF相当:

  • 首先,观察到RLAIF和RLHF策略在71%和73%的情况下都得到了人类评估者的偏好,超过了监督微调(SFT)基线。重要的是,统计分析没有显示出两种方法之间的胜率之间存在显著差异。
  • 其次,当人类被要求直接比较RLAIF和RLHF生成的结果时,他们对两种方法表达了相同的偏好,导致两种方法的胜率均为50%。这些发现表明,RLAIF是RLHF的可行替代方案,独立于人类注释操作,并具有可扩展性。

需要注意的是,这项工作仅探讨了概括任务,对于其他任务的泛化性尚未得到解决。此外,该研究没有估计大型语言模型(LLM)推断在经济支出方面是否比人类标注具有成本效益。未来,研究人员希望探索这个领域。

Leave a Reply

Your email address will not be published. Required fields are marked *