转变AI互动：LLaVAR在视觉和基于文本的理解方面表现出色，标志着多模态指令跟踪模型的新时代

转变AI互动：LLaVAR在视觉和基于文本的理解方面表现出色，标志着多模态指令跟踪模型的新时代机器学习第1张

通过将多个活动合并为一条指令，指令调整增强了对新任务的泛化能力。这种对开放式问题的回应能力为最近的聊天机器人爆发做出了贡献，因为ChatGPT 2。最近，像CLIP-ViT这样的视觉编码器已经作为视觉指令调整模型的一部分添加到会话代理中，从而可以基于图片进行人-代理交互。然而，它们需要帮助理解图片中的文本，可能是由于训练数据中自然图像的占主导地位（例如，Conceptual Captions和COCO）。然而，阅读理解对人类的日常视觉感知至关重要。幸运的是，OCR技术使得能够从照片中识别出文字。

通过将识别到的文本添加到视觉指令调整模型的输入中（较大的上下文长度），可以（天真地）增加计算量，而不完全利用视觉编码器的编码能力。为了做到这一点，他们建议收集需要理解图片中的文字的指令遵循数据，以改进视觉指令调整模型的端到端性能。通过将手动给定的指示（例如，“识别提供的图像中可见的任何文本。”）与OCR结果相结合，他们首先使用文本丰富的图像收集了422K条嘈杂的指令遵循数据。

这些大规模的嘈杂对齐数据显著增强了语言解码器和视觉特征之间的特征对齐。此外，他们要求仅使用OCR结果和图像标题作为如何遵循指令的高质量示例，让纯文本GPT-4生成16K个对话。每个对话可能包含多轮的问答对。为了根据输入产生复杂的指令，这种方法要求GPT-4对OCR数据进行去噪，并创建独特的问题（图1）。他们使用获得的数据评估了LLaVA的预训练和微调阶段，分别使用嘈杂和高质量的示例来评估数据的有效性。

转变AI互动：LLaVAR在视觉和基于文本的理解方面表现出色，标志着多模态指令跟踪模型的新时代机器学习第3张 — 图1显示了如何收集关于遵循指令的准确统计数据。| https://arxiv.org/pdf/2306.17107.pdf

来自乔治亚理工学院、Adobe研究和斯坦福大学的研究人员开发了LLaVAR，即能够阅读的大型语言和视觉助手。为了更好地编码细微的文本特征，他们在原始LLaVA的基础上将输入分辨率从2242提高到3362进行了实验。根据评估技术，他们与四个基于文本的VQA数据集以及ScienceQA微调结果一起给出了研究结果。此外，他们在基于GPT-4的指令遵循评估中使用了来自LAION的50张文本丰富图片和来自COCO的30张自然图片。此外，他们还提供了定性分析，以衡量更复杂的指令遵循能力（例如海报、网站截图和推文）。

总之，他们的贡献包括：

• 他们收集了16K条高质量和422K条嘈杂的指令遵循数据。两者都被证明可以改善视觉指令调整。这种改进的能力使得他们的模型LLaVAR能够基于多样的在线材料（包括文本和图片）进行端到端交互，同时仅在自然照片上略微提高模型的性能。

• 训练和评估数据以及模型里程碑都已公开提供。

这篇文章的英文原文发表在MarkTechPost网站上。