Press "Enter" to skip to content

微软的研究人员介绍了Hydra-RLHF:一种具有人类反馈的内存高效的强化学习解决方案

微软的研究人员介绍了Hydra-RLHF:一种具有人类反馈的内存高效的强化学习解决方案 四海 第1张微软的研究人员介绍了Hydra-RLHF:一种具有人类反馈的内存高效的强化学习解决方案 四海 第2张

自从被广为人知以来,ChatGPT、GPT-4和Llama-2系列模型以其在各种工作中的多功能性赢得了用户的喜爱。使用RLHF和许多其他基础模型进行模型对齐是其有效性的一个因素。训练一个庞大的语言模型会创建一个具有大量知识的网络。然而,由于网络并不被教导去区分其中的信息,它可能表现出不良行为,甚至造成社会危害。通过改变模型的行为,对齐旨在解决这个问题,并在发展安全和可管理的基础模型方面变得至关重要。

虽然RLHF增强了模型对齐,但由于其在加载和训练多个模型期间PPO时的复杂性和大内存需求,其使用受到限制。需要评估RLHF的速度和性能差异,因为其应用仍处于初级阶段。为了实现这一目标,他们研究了常见的RLHFPPO的训练过程和模型架构。他们的研究发现通过在参考/奖励模型和演员/评论家模型之间共享模型,可以显著降低内存/计算成本。

微软的研究人员建议在PPO期间使用Hydra-PPO来最小化在内存中存储的学习和静态模型的数量。根据运行时和性能比较,这些内存节省可以用来增强训练批次大小,从而减少PPO每个样本的延迟高达65%。他们提出了一组名为Hydra-RLHF的RLHF改进,他们创建了一个基于解码器的模型,称为hydra,其中包含两个线性头:

1)一个因果头,预测在序列中它之后将出现的令牌

2)一个奖励模型头,提供与相同输入相关的即时奖励。

多头模型已经广泛研究,一般来说,与强化学习有关。

他们进行了比较研究,评估了几种模型对齐过程的有效性,以GPT-4为衡量标准。他们发现LoRA-PPO比FFT具有更好的对齐效果,但成本更高。他们引入了Hydra-RLHF,通过将参考和奖励模型结合起来,并在PPO期间动态切换当前的LoRA模块,以减少内存使用同时保持速度。由于Hydra-RLHF,社区现在可以使用RLHF来进行更广泛范围的模型和应用。

Leave a Reply

Your email address will not be published. Required fields are marked *