

北京大学、彭城实验室、北京大学深圳研究生院和中山大学的研究人员介绍了大型视觉-语言模型(LVLM)方法Video-LLaVA,该方法将视觉表示统一到语言特征空间中。与现有方法单独编码图像和视频不同,Video-LLaVA通过在投影过程中解决对齐问题实现了统一的LVLM。这个简单而强大的模型在九个图像数据集上表现出色,在五个数据集和四个工具包中的图像问答方面表现优秀。
Video-LLaVA将图像和视频整合到一个特征空间中,改善了多模态交互。它在各种图像基准测试中胜过了Video-ChatGPT,并在图像问答方面表现出色。在视频理解方面,Video-LLaVA始终超过Video-ChatGPT,并在多个视频数据集上胜过最先进的Chat-UniVi。利用LLM的推理能力,Video-LLaVA使用Vicuna-7B v1.5进行训练,并使用LanguageBind和ViT-L14得到的视觉编码器。
Video-LLaVA通过在投影之前将图像和视频的视觉表示对齐来解决现有方法中编码图像和视频分开的问题,缓解了LLMs学习多模态交互的问题。Video-LLaVA在各种图像和视频基准测试中超过了先进的LVLM和Video-ChatGPT,展现了在理解和回应人类提供的指令方面的改善性能。这种方法强调了在投影之前将视觉特征对齐到统一空间的益处,以提升多模态交互学习。
Video-LLaVA通过在投影之前将图像和视频的视觉表示对齐到一个统一的特征空间中。它采用Vicuna-7B v1.5作为语言模型,使用由LanguageBind初始化的ViT-L14得到的视觉编码器。训练过程涉及将图像调整大小和裁剪为224×224。利用来自CC3M的558K LAION-CC-SBU图像文本对的子集进行了预训练。指令数据集来自各个地方,包括来自LLaVA v1.5的665K图像文本指令数据集和来自Video-ChatGPT的100K视频文本指令数据集。
Video-LLaVA在九个图像基准测试中表现出色,分别在MSRVTT、MSVD、TGIF和ActivityNet上比Video-ChatGPT提升了5.8%、9.9%、18.6%和10.1%。它在89个图像基准测试中表现优秀,超过了InstructBLIP-7B在问答方面的表现。与更强大的LVLM相媲美,它在VisWiz上超过了InstructBLIP-13B的14.7。Video-LLaVA显著提升了四个数据集上的视频问答,展现了其通过统一的视觉表示理解和学习图像和视频的能力。
总之,Video-LLaVA是一个非常庞大的视觉-语言模型,有效解决了对齐问题,并在各种图像基准测试中表现更好。其对图像和视频的联合训练增强了其功效,使其能够超越专门设计用于图像或视频的专家模型。该模型在统一视觉概念的理解以及图像问答基准测试中的出色表现,展示了其和谐的视觉训练框架的有效性,凸显了其强大的能力。
未来的研究可以探索在投影之前的先进对齐技术,以增强多模态交互中的LVLMs。应该研究其他方法来统一图像和视频的标记化,以解决对齐问题。通过对更多基准测试和数据集进行Video-LLaVA的评估,可以评估其泛化能力。与更大的语言模型进行比较可以阐明其可扩展性和潜在的增强效果。增强Video-LLaVA的计算效率以及研究联合训练对LVLM性能的影响是进一步探索的方向。