自从被广为人知以来,ChatGPT、GPT-4和Llama-2系列模型以其在各种工作中的多功能性赢得了用户的喜爱。使用RLHF和许多其他基础模型进行模型对齐是其有效性的一个因素。训练一个庞大的语言模型会创建一个具有大量知识的网络。然而,由于网络并不被教导去区分其中的信息,它可能表现出不良行为,甚至造成社会危害。通过改变模型的行为,对齐旨在解决这个问题,并在发展安全和可管理的基础模型方面变得至关重要。
虽然RLHF增强了模型对齐,但由于其在加载和训练多个模型期间PPO时的复杂性和大内存需求,其使用受到限制。需要评估RLHF的速度和性能差异,因为其应用仍处于初级阶段。为了实现这一目标,他们研究了常见的RLHFPPO的训练过程和模型架构。他们的研究发现通过在参考/奖励模型和演员/评论家模型之间共享模型,可以显著降低内存/计算成本。
微软的研究人员建议在PPO期间使用Hydra-PPO来最小化在内存中存储的学习和静态模型的数量。根据运行时和性能比较,这些内存节省可以用来增强训练批次大小,从而减少PPO每个样本的延迟高达65%。他们提出了一组名为Hydra-RLHF的RLHF改进,他们创建了一个基于解码器的模型,称为hydra,其中包含两个线性头:
1)一个因果头,预测在序列中它之后将出现的令牌
2)一个奖励模型头,提供与相同输入相关的即时奖励。
多头模型已经广泛研究,一般来说,与强化学习有关。
他们进行了比较研究,评估了几种模型对齐过程的有效性,以GPT-4为衡量标准。他们发现LoRA-PPO比FFT具有更好的对齐效果,但成本更高。他们引入了Hydra-RLHF,通过将参考和奖励模型结合起来,并在PPO期间动态切换当前的LoRA模块,以减少内存使用同时保持速度。由于Hydra-RLHF,社区现在可以使用RLHF来进行更广泛范围的模型和应用。