Press "Enter" to skip to content

来自加州大学伯克利分校和谷歌的研究人员推出了一种人工智能框架,将视觉问答表述为模块化代码生成

来自加州大学伯克利分校和谷歌的研究人员推出了一种人工智能框架,将视觉问答表述为模块化代码生成 机器学习 第1张来自加州大学伯克利分校和谷歌的研究人员推出了一种人工智能框架,将视觉问答表述为模块化代码生成 机器学习 第2张

人工智能(AI)的领域正在随着每个新模型和解决方案的发布而不断发展和进步。近来因其不可思议的能力而变得非常流行的大型语言模型(LLMs)是AI崛起的主要原因。AI的子领域,无论是自然语言处理(NLP)、自然语言理解(NLU)还是计算机视觉,所有这些都在进步,并且出于种种良好的理由。最近引起AI和深度学习社区极大兴趣的一个研究领域是视觉问答(VQA)。VQA是回答关于图像的开放性、基于文本的问题的任务。

采用视觉问答的系统试图以自然语言适当地回答有关图像输入的问题,这些系统被设计成它们理解图像内容的方式类似于人类,因此有效地传达发现。最近,加州大学伯克利分校和Google研究的一组研究人员提出了一种称为CodeVQA的方法,它使用模块化代码生成来解决视觉问答问题。CodeVQA将VQA制定为程序综合问题,并利用编码语言模型,该模型以问题作为输入并生成代码作为输出。

这个框架的主要目标是创建可以调用经过预先训练的视觉模型并组合其输出以提供答案的Python程序。所生成的程序操作视觉模型输出并使用算术和条件逻辑推导出解决方案。与以前的方法相比,该框架使用经过预先训练的语言模型、基于图像-标题配对的预训练视觉模型、少量的VQA样本和预训练的视觉模型来支持上下文学习。

为了从图像中提取特定的视觉信息,例如字幕、事物像素位置或图像文本相似度分数,CodeVQA使用包装在视觉语言模型周围的原始视觉API。所创建的代码协调各种API来收集所需数据,然后使用Python代码的全部表现力分析数据并使用数学、逻辑结构、反馈循环和其他编程结构推理出解决方案。

为了评估这种新技术的性能,该团队将其性能与不使用代码生成的几次采样基线进行了比较。 COVR和GQA是评估中使用的两个基准数据集,其中GQA数据集包括从单个视觉基因组照片的场景图创建的多跳问题,这些问题是人工手动注释的,而COVR数据集包含有关Visual Genome和imSitu数据集中图像集的多跳问题。结果显示,CodeVQA在两个数据集上都比基线表现更好。特别是,在COVR数据集上的准确性至少提高了3%,在GQA数据集上则提高了约2%。

该团队提到,CodeVQA很容易部署和使用,因为它不需要任何额外的训练。它利用预训练模型和有限数量的VQA样本进行上下文学习,这有助于将创建的程序针对特定的问题-答案模式进行调整。总之,该框架强大,并利用预先训练的LM和视觉模型的优势,提供了一种基于模块化和代码的VQA方法。

Leave a Reply

Your email address will not be published. Required fields are marked *