通过使用图像-文本配对的附加预训练或对其进行精细调整以用于专门的视觉指令调整数据集,大型语言模型可以深入多模态领域,产生强大的大型多模态模型。然而,构建LMMs存在一些障碍,其中最主要的是多模态数据与仅文本数据集之间的数量和质量差异。以LLaVA模型为例,它由预训练的视觉编码器和针对指令进行调整的语言模型初始化。与仅使用超过100M个示例进行1800项任务的纯文本模型相比,它仅在150K个基于图像的人工对话上进行训练。由于这样的数据限制,视觉和语言模态可能不会对齐。
因此,LMMs可能会生成与图片给出的上下文不准确相关的幻觉输出。加州大学伯克利分校、CMU、UIUC、UW-Madison、UMass Amherst微软研究院和MIT-IBM Watson AI实验室的研究人员提出了LLaVA-RLHF,这是一种用于增强多模态对齐的视觉语言模型,以解决LMM训练中高质量视觉指令调整数据的缺失所带来的问题。他们的一个主要贡献是将LMM的多模态对齐调整为称为”从人类反馈中进行强化学习”的通用且可扩展的对齐范式,该对齐范式对于基于文本的AI代理人已经表现出显著的有效性。为了调整LMM,它收集人类偏好,重点关注识别幻觉,并将这些偏好用于强化学习。
这种策略可能可以在相对便宜的注释成本下改善多模态对齐,例如为基于图像的讨论收集10K个人类偏好需要3000美元。据他们所知,这种策略是多模态对齐领域中首次有效使用RLHF。仅仅获得奖励模型的高评分并不一定等同于改善人类判断,这就是奖励破解。这是目前RLHF范式可能存在的问题。先前的研究提出了迭代收集“新鲜”的人类反馈来阻止激励破解,但这种方法通常很昂贵,无法正确利用现有的人类偏好数据。本研究提出了一种更加高效利用数据的选择,试图使奖励模型能够利用由人类标注的更大型语言模型中已存在的知识和数据。
图1:图解了LMM训练的受监督微调(SFT)阶段期间可能出现幻觉的可能性,以及事实增强RLHF如何解决奖励模型能力低下的问题,该模型从SFT模型初始化。
首先,他们使用分辨率更高、规模更大的语言模型以及更优秀的视觉编码器来提升奖励模型的整体功能。其次,他们提出了事实增强RLHF算法,如图1所示,通过补充额外信息(如图片描述或基于真实多选项)来校准奖励信号。他们还将合成的视觉指令调整数据与现有的高质量人类注释的多模态对话数据进行增强,以提高LMMs在受监督微调阶段的总体能力。他们特别将Flickr30k转换为定位描述任务,将VQA-v2和A-OKVQA转换为多轮问答任务,并使用新的数据集训练LLaVA-SFT+模型。
最后,他们考虑了如何评估LMMs在实际创作情境中的多模态对齐,特别关注惩罚任何幻觉。他们开发的基准问题集MMHAL-BENCH涵盖了COCO的12个主要物体类别,并包含了8种工作类型。根据他们的分析,该基准数据集与人类评估非常接近,尤其是如果考虑反幻觉的分数。作为首个经过RLHF训练的LMM,LLaVA-RLHF在实验评估中表现出色。他们在LLaVA-Bench上看到了94%的改善,在MMHAL-BENCH上改善了60%,并在MMBench上刷新了52.4%的性能记录和POPE上82.7%的F1值。他们已经在GitHub上公开了他们的代码、模型和数据。