

大型视觉语言模型(LVLM)能够解释视觉线索并为用户提供互动的简单回复。这是通过巧妙地将大规模语言模型(LLMs)与大规模视觉指令微调相结合实现的。然而,LVLMs只需要手工制作或LLM生成的数据集通过监督微调(SFT)来进行对齐。尽管将LVLMs从字幕生成器变成遵循指令的模型是行之有效的,但是LVLMs仍然可能产生伤害、恶意或无用的回复。这表明它们仍然需要更加与人类偏好保持一致。此外,尽管先前的研究鼓励将视觉指令微调样本组织成多轮形式,但是LVLMs的互动能力受到不同轮次之间薄弱的连接和相互依赖的限制。在这里,互动能力评估了LVLMs在多回合互动中如何使用先前的上下文调整其回复。这两个缺点限制了LVLMs作为视觉助手的实际应用。
来自SRI International和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了DRESS,一种在本研究中使用LLMs生成的自然语言反馈(NLF)来独特教授LVLMs的方法(参见图1)。研究团队要求LLMs对LVLMs的回复提供细致的反馈,通过提供具体规则和广泛的照片注释来完成。与创建与人类对齐的LLMs的过程相一致,这种反馈注释考虑了三个H标准:有用性、诚实性和无害性。反馈以3H标准综合评估回复的整体质量,并提供数值分数和NLF。研究团队的方法将NLF分为批评和改进两个部分。改进NLF向LVLMs提供了改善回复以使其与参考标准保持一致的精确建议,而批评NLF评估了回复的优点和缺点。这种分类为两种类型的NLF的自然应用提供了可能,使LVLMs更能被人类接受并增强其互动能力。
研究团队将条件强化学习技术推广到非可微的NLF特性上,并用这种反馈来训练LVLMs。具体而言,研究团队使用回复的语言建模(LM)损失对DRESS进行训练,以生成在两种NLF条件下的等效回复。通过分析和解释数值结果来进一步改进DRESS,以更好地匹配用户偏好。通过推理过程中的多轮互动,研究团队训练DRESS学习通过采用改进NLF来改善其原始回复的元技能。
研究团队对DRESS进行了多轮互动、对无害性评估的对抗提示、用于诚实性评估的图片字幕以及用于有用性评估的开放式视觉问题回答的实验评估。实验结果表明,与早期的LVLMs相比,DRESS能够提供与人类价值观一致的回复,并具有更强的互动能力,可以高效地从反馈中学习并修改回复。据研究团队所知,他们的工作是首次同时考虑LVLMs的互动能力和全部三个3H标准。
研究团队的贡献总结如下:
• 研究团队建议使用自然语言反馈(NLF),可分为批评和改进NLF,以增强LVLMs的互动能力和与人类偏好的一致性。
• 通过训练模型,使其提供基于NLF的匹配回答,研究小组成功地将有条件的强化学习方法推广到了不可微分的NLF上。与之前的最佳模型相比,研究小组提出的模型DRESS在有益性、诚实性和无害性对齐的系统评估中分别表现出了相对改进的9.76%、11.52%和21.03%。
• 研究小组生成并公开了63K个带注释的NLF语言示例,包括3H特性。此外,研究小组还创建了一个公开可用的数据集,其中包含4.7K个用于无害对齐和LVLM评估的样本。