Press "Enter" to skip to content

“探秘LlaVA:GPT-4V的第一个开源替代品”

该模型在多个视觉指令任务中表现优于GPT-4。

图片来源:https://www.reddit.com/r/machinelearningnews/comments/1388fp2/meet_llava_a_large_language_multimodal_model_and/

我最近开设了一个以人工智能为重点的教育通讯,已经有超过160,000个订阅者。TheSequence是一个无BS(意思是没有炒作,没有新闻等)面向机器学习的通讯,每次阅读仅需5分钟。我们的目标是让您及时了解机器学习项目、研究论文和概念。请订阅以下,尝试一下:

TheSequence | Jesus Rodriguez | Substack

关于机器学习、人工智能和数据开发的最佳消息来源…

thesequence.substack.com

几周前,OpenAI在GPT-4中发布了新的图像和音频处理功能。基本上,AI实验室宣布了一个名为GPT-4 Vision(GPT-4V)的新模型,它允许用户对图像和音频输入进行指令。GPT-4V是多模态基础模型领域的一个有趣的发展。在GPT-4V发布几天后,我们已经有了第一个开源替代品。威斯康星大学麦迪逊分校和微软研究人员推出了大型语言和视觉助手(LLaVA),这是一个基于LLaMA的多模态LLM,可以处理图像和音频数据作为输入。

LLaVA是一个端到端训练的奇迹,无缝地连接了视觉编码器和LLM(大型语言模型),提供了全面的视觉和语言理解。对LLaVA进行的早期实验揭示了它在多模态聊天交互中的卓越能力,有时即使面对以前未见过的图像和指令,也表现出与备受期待的多模态GPT-4类似的行为。

在这一努力中,迈出的一大步似乎是视觉指令调整的探索。这标志着将指令调整的概念扩展到多模态AI领域的开创性努力,从而为通用的、多功能的视觉助手的开发奠定了基础。LLaVA发布的论文在以下几个方面对该领域做出了重要的贡献:

· 多模态指令遵循数据:在这个过程中面临的一个关键挑战是视觉语言指令遵循数据的稀缺性。为了解决这个问题,设计了一种新的数据改造方法和流程。该技术将图像文本对转换为所需的指令遵循格式,利用了ChatGPT/GPT-4的强大能力。

· 大型多模态模型:通过将CLIP的开放式视觉编码器与称为LLaMA的语言解码器结合起来,LLaVA得以实现。这些组件然后一起进行微调,使用项目期间生成的指导性视觉语言数据。广泛的实证研究验证了使用生成数据进行LMM指令调整的有效性,为多功能指令遵循的视觉代理的开发提供了实际见解。值得注意的是,在Science QA多模态推理数据集上,LLaVA在GPT-4的帮助下已经达到了最先进的性能。

· 开源倡议:为了合作和知识共享的精神,LLaVA背后的团队自豪地向公众发布了一些有价值的资源。

可以说,LLaVA的最大贡献是利用GPT-4生成经过指令调整的数据集。

使用GPT-4生成视觉指令数据

在多模态数据领域中,社区已经目睹了大量公开资源的涌入,包括从CC到LAION的各种图像文本对。然而,在多模态指令遵循数据领域,可用的资源仍然有限。这种稀缺性部分是由于涉及人类众包的费力和有些模糊的过程。在最近GPT模型在文本注释任务中取得的显著成功的启发下,提议产生了:让我们利用ChatGPT/GPT-4的力量来收集多模态指令遵循数据,在现有图像对数据的基础上建立。

考虑一张图像Xv及其对应的标题Xc。它自然地可以用来创建一组问题Xq,目的是指导AI助手描述图像的内容。启动GPT-4,我们策划了这些问题的列表,如附录中的表8所示。因此,一个扩展图像文本对为其指令遵循对应物的直接方法显现出来:人生成Xq Xv<STOP>nn,而助手以Xc<STOP>nn作为回应。尽管具有成本效益,但这种直接的扩展方法在指令和结果回应中在多样性和深度方面有些局限。

为了解决这个限制,这种方法转向利用以语言为重点的GPT-4或ChatGPT作为强大的教师。这些模型接受文本作为输入,用于构建包含视觉内容的指令遵循数据。方法很明确:为了将图像转化为仅包含文本的GPT所需的视觉特征,采用了符号表示。这些表示分为两类:

· 标题:这些作为文本描述提供了对视觉场景的多个角度。

· 边界框:这些方便的框用来定位和勾画场景中的对象。每个边界框不仅编码对象概念,而且编码其空间位置。

· 凭借这种创新方法,扩展多模态指令遵循数据的努力正准备打开多样性和深度的新维度,弥合视觉内容和文本指令之间的差距。请继续关注GPT-4继续改变多模态人工智能领域的局势。

图片来源:https://llava-vl.github.io/

LLaVA架构

LLaVA通过一个直接的投影矩阵将预训练的CLIP ViT-L/14视觉编码器与强大的大型语言模型Vicuna无缝连接起来。它的非凡能力的发展经历了一个两阶段的指令调整过程:

阶段1:特征对齐的预训练

在这个初级阶段,焦点仅放在更新投影矩阵上。这种更新是基于CC3M数据的一个子集,为进一步的改进奠定基础。

阶段2:端到端微调

在这里,势头逐渐增强,投影矩阵和LLM都会得到更新,以适应两个不同的使用场景:

· 视觉对话:LLaVa通过使用我们精心设计的多模态指令遵循数据进行微调,满足用户的日常需求。

· 科学问答:LLaVa通过使用为复杂的科学域量身定制的多模态推理数据集进行微调。

图片来源:https://llava-vl.github.io/

使用机器生成的指令跟随数据来调整大型语言模型(LLMs)的概念,无疑在语言领域提升了零-shot能力。然而,在多模态AI领域的应用仍然是相对未知的领域。

初步结果

与GPT-4相比,LLaVA的初步评估显示出令人难以置信的结果。

图片来源:https://llava-vl.github.io/

LLaVA的早期章节非常引人注目。这些实验揭示了LLaVA在面对未见过的图像和指令时的令人印象深刻的聊天能力,有时模仿多模态GPT-4的行为。与合成多模态跟随指令数据集相比,它相对得分达到了令人印象深刻的85.1%。此外,当LLaVA和GPT-4在科学问答上进行微调后,它们取得了前所未有的最先进的准确性,达到惊人的92.53%。

图片来源:https://llava-vl.github.io/

LLaVA代表了多模态LLMs领域最令人兴奋的发展之一,也是开源基础模型运动的重要一步。

Leave a Reply

Your email address will not be published. Required fields are marked *