

MATHVISTA被介绍为评估大型语言模型(LLMs)和大型多模态模型(LMMs)在视觉背景下的数学推理能力的基准。该标准结合了各种数学和图形任务,并包括现有的和新的数据集。初步评估涉及11个知名模型,包括LLMs,工具增强的LLMs和LMMs,在与人类能力相比存在可观的性能差距,表明进一步的发展是必要的。该基准对于开发具有数学和视觉推理能力的通用AI代理非常重要。
评估LLMs的数学推理能力的当前基准仅关注基于文本的任务,并且其中一些,如GSM-8K,显示出性能饱和。在科学领域,有一个对于强大的多模态基准的日益需要以解决这个限制。像VQA这样的基准探索了LMMs在自然图像之外的视觉推理能力,涵盖了广泛的视觉内容。生成式基础模型在解决各种任务时起到了重要作用,而专门的预训练方法在视觉背景下改善了图表推理。最近的研究强调了这些模型在实际应用中的日益重要性。
数学推理是人类智力的关键方面,应用于教育、数据分析和科学发现。现有的AI数学推理基准是基于文本的,缺乏视觉上下文。来自UCLA、华盛顿大学和微软研究机构的研究人员引入了MATHVISTA,这是一个综合性基准,结合了多种数学和图形挑战,以评估基础模型的推理能力。MATHVISTA包括多种推理类型、主要任务和各种视觉背景,旨在改善模型在实际应用中的数学推理能力。
MATHVISTA是一个用于在视觉背景中评估基础模型数学推理能力的基准。它采用任务类型、推理技能和视觉背景的分类法来策划现有数据集和新的数据集。该基准包括需要深入理解视觉和组合推理的问题。初步测试显示,它对GPT-4V造成了挑战,并强调了其重要性。
MATHVISTA揭示了最佳表现模型Multimodal Bard的准确率为34.8%,而人类表现显著高于60.3%。仅文本的LLMs优于随机基线,2-shot GPT-4的准确率达到29.2%。配备图像标题和OCR文本的增强LLMs表现更好,2-shot GPT-4的准确率达到33.9%。开源LMMs如IDEFICS和LLaVA由于数学推理、文本识别、形状检测和图表理解的局限性而表现不佳。
总之,MATHVISTA研究强调了在视觉背景中改善数学推理能力的需求,以及在将数学与视觉理解整合时面临的挑战。未来的发展方向包括开发具有增强的数学和视觉能力的通用LMMs,通过使用外部工具增强LLMs,并评估模型解释能力。该研究强调了推动AI代理执行数学密集且视觉丰富的实际任务的重要性,这可以通过在模型架构、数据和训练目标方面的创新来实现,以改进视觉感知和数学推理。