加州大学伯克利分校的研究人员提出了一种名为“后见之链（CoH）”的新技术，可以使LLMs从任何形式的反馈中学习，提高模型性能

加州大学伯克利分校的研究人员提出了一种名为“后见之链（CoH）”的新技术，可以使LLMs从任何形式的反馈中学习，提高模型性能四海第1张

在过去的几年里，大规模神经网络引起了研究人员的广泛关注。这主要是因为它们在各种任务中表现出色，包括自然语言理解、解决具有挑战性的数学方程，甚至蛋白质结构预测。然而，为了确保这些模型对社会做出建设性贡献，关键是它们与人类价值观保持一致，并考虑人类偏好。使用人类反馈是实现这一目标最重要的方面之一，因为它使人类能够根据一系列指标（如准确性、公平性、偏见等）评估这些模型的性能，并提供改进这些模型以产生更具伦理输出的见解。为了提高整合用户反馈的效率，研究人员在过去几年中一直在尝试多种人机协同系统的方法。结果表明，ChatGPT和InstructGPT在使用人类反馈进行学习方面取得了惊人的成果。

这种语言建模的性能提升主要归因于依赖监督微调（SFT）和利用人类反馈进行强化学习（RLHF）的策略。尽管这些策略在提高语言模型性能方面做出了显著贡献，但它们也有自己的缺点。SFT主要依赖于人工注释，使得这些模型难以使用并且在数据利用上效率低下。另一方面，由于强化学习是基于奖励函数的，优化这些模型非常具有挑战性。

为了解决这些问题，加州大学伯克利分校的研究人员开发了一种将所有反馈转化为句子并使用它们来微调模型以理解反馈的新技术。这种技术被称为“回顾链”（CoH），它在很大程度上受到人类如何处理以语言形式提供的大量反馈的启发。研究人员在设计这种技术时的目标是结合SFT和RLHF的优势，同时避免使用强化学习来充分利用所有反馈。他们目前的方法利用语言理解和学习反馈的能力，最终提高模型在执行各种任务时的准确性和效果。

研究人员利用人类从语言形式的丰富反馈中学习得很好的事实。鉴于预训练语言模型在上下文中有效学习的卓越能力，研究人员想知道是否可以将所有反馈都转化为一个句子，并训练模型遵循这些反馈。更详细地说，研究人员建议微调模型以预测结果，同时依赖于一个或多个排序结果及其比较形式的反馈。CoH在训练过程中随机选择一个或多个模型输出，并利用它们构建一个包含正面和负面比较反馈的句子。例如，两个示例句子可以是“以下是一个糟糕的摘要”和“以下摘要更好”。模型在推理时使用正面反馈生成所需的输出。

CoH方法允许模型从正面和负面反馈中学习，以识别和纠正负面属性或错误。该策略还具有其他一些优点，包括更有机的反馈样式和一个训练系统。此外，根据研究人员进行的众多实验评估，CoH技术在关联语言模型与人类偏好方面远远优于先前的方法。该方法在人类评估中受到青睐，并在摘要和讨论任务上表现出色。加州大学伯克利分校的研究团队坚信，CoH在未来在各种其他类型的反馈（如自动和数值反馈）中具有巨大潜力。