微软的研究人员介绍了Hydra-RLHF：一种具有人类反馈的内存高效的强化学习解决方案

微软的研究人员介绍了Hydra-RLHF：一种具有人类反馈的内存高效的强化学习解决方案四海第1张

自从被广为人知以来，ChatGPT、GPT-4和Llama-2系列模型以其在各种工作中的多功能性赢得了用户的喜爱。使用RLHF和许多其他基础模型进行模型对齐是其有效性的一个因素。训练一个庞大的语言模型会创建一个具有大量知识的网络。然而，由于网络并不被教导去区分其中的信息，它可能表现出不良行为，甚至造成社会危害。通过改变模型的行为，对齐旨在解决这个问题，并在发展安全和可管理的基础模型方面变得至关重要。

虽然RLHF增强了模型对齐，但由于其在加载和训练多个模型期间PPO时的复杂性和大内存需求，其使用受到限制。需要评估RLHF的速度和性能差异，因为其应用仍处于初级阶段。为了实现这一目标，他们研究了常见的RLHFPPO的训练过程和模型架构。他们的研究发现通过在参考/奖励模型和演员/评论家模型之间共享模型，可以显著降低内存/计算成本。

微软的研究人员建议在PPO期间使用Hydra-PPO来最小化在内存中存储的学习和静态模型的数量。根据运行时和性能比较，这些内存节省可以用来增强训练批次大小，从而减少PPO每个样本的延迟高达65%。他们提出了一组名为Hydra-RLHF的RLHF改进，他们创建了一个基于解码器的模型，称为hydra，其中包含两个线性头：

1）一个因果头，预测在序列中它之后将出现的令牌

2）一个奖励模型头，提供与相同输入相关的即时奖励。

多头模型已经广泛研究，一般来说，与强化学习有关。

他们进行了比较研究，评估了几种模型对齐过程的有效性，以GPT-4为衡量标准。他们发现LoRA-PPO比FFT具有更好的对齐效果，但成本更高。他们引入了Hydra-RLHF，通过将参考和奖励模型结合起来，并在PPO期间动态切换当前的LoRA模块，以减少内存使用同时保持速度。由于Hydra-RLHF，社区现在可以使用RLHF来进行更广泛范围的模型和应用。