Press "Enter" to skip to content

“简单的数学可以为大型语言模型(LLMs)的强化学习和高效学习提供信息吗?这篇人工智能论文回答是肯定的!”

“简单的数学可以为大型语言模型(LLMs)的强化学习和高效学习提供信息吗?这篇人工智能论文回答是肯定的!” 四海 第1张“简单的数学可以为大型语言模型(LLMs)的强化学习和高效学习提供信息吗?这篇人工智能论文回答是肯定的!” 四海 第2张

融入人类输入是近期大型语言模型(LLM)能力显著提升的关键组成部分,例如ChatGPT和GPT-4。为了有效使用人类反馈,首先必须训练一个融入人类偏好、价值观和伦理问题的奖励模型。然后,在奖励模型的指导下,使用强化学习调整LLM。这个过程被称为从人类反馈中进行强化学习(RLHF),可以成功地使LLM与人类目标协调,显著提升人际交流的质量。

创建一个功能性且基于人类偏好的奖励系统并不容易。当人类标注者无法为特定提示的响应或完成提供一个数字评分时,这变得非常具有挑战性。相反,对于人们来说,根据质量进行完成的两两比较要简单得多,并且这种方法被用于InstructGPT的创建。特别是,人类标注者在看到由LLM生成的许多完成的同一个提示后,将这些完成从最高到最低的感知质量进行排序。

然后,回复根据一个经过训练的神经网络来匹配人类偏好排名的奖励模型进行奖励。尽管有一些优点,比如消除校准问题,但排名并不能充分反映多个提示的各种奖励分布。这是因为当排名较高时,很难清楚地知道一个完成比另一个完成好多少。由于一些RLHF提示是开放式的,或者换句话说,依赖于用户的历史记录,因此奖励分布可能在较大范围内变化;因此,这个问题尤为重要。

相反,有些提示是封闭式的,产生应该获得高或低分的回复,导致奖励分布的近似两点质量分布。第一类提示的例子包括“证明勾股定理”和“鸡是恐龙吗”。第二类提示的例子包括“证明勾股定理”和“写一篇关于100年后人工智能的短篇小说”。只有考虑到各种线索的微妙之处,激励模型才能帮助LLM适当地衡量不确定性。

斯坦福大学、普林斯顿大学和宾夕法尼亚大学的研究人员记录了一个意外现象,显示在根据偏好排名训练奖励模型时,它可以提供独立于提示的相同奖励分布。这个事件发生在训练的最后阶段,被称为奖励崩溃。有趣的是,在这个事件被经验性地证明之前,他们的理论分析就已经预测到了。他们证明了可以使用一个简单的优化程序,甚至更简单的闭式表达式来数值推断奖励崩溃的奖励分布。他们对奖励崩溃的预测与经验结果非常吻合。

他们的第二个重要贡献是引入了一种有原则的策略,利用来自同一个优化程序的数据来防止奖励崩溃。奖励崩溃是不可取的,因为它忽略了不同提示之间微小的区别,并且在使用强化学习和奖励模型训练LLM时可能导致人类选择的错误校准。奖励模型的训练提前结束是解决这个问题的一个简单方法,但这是相当任意的,并且很难决定何时结束。

实质上,他们建议基于提示使用不同的效用函数来训练奖励模型,这样产生的奖励分布可以是广泛分散或紧密集中的,具体取决于提示是开放式还是封闭式。这种基于提示的技术具有明显的优势,可以进行全面的分析,根据需要完全定制奖励分布的结构。他们的研究结果表明,使用这种基于提示的技术可以显著减少奖励崩溃。

Leave a Reply

Your email address will not be published. Required fields are marked *