揭秘图像中的数学：新的MathVista基准如何推动视觉和数学推理的AI界限

MATHVISTA被介绍为评估大型语言模型（LLMs）和大型多模态模型（LMMs）在视觉背景下的数学推理能力的基准。该标准结合了各种数学和图形任务，并包括现有的和新的数据集。初步评估涉及11个知名模型，包括LLMs，工具增强的LLMs和LMMs，在与人类能力相比存在可观的性能差距，表明进一步的发展是必要的。该基准对于开发具有数学和视觉推理能力的通用AI代理非常重要。

评估LLMs的数学推理能力的当前基准仅关注基于文本的任务，并且其中一些，如GSM-8K，显示出性能饱和。在科学领域，有一个对于强大的多模态基准的日益需要以解决这个限制。像VQA这样的基准探索了LMMs在自然图像之外的视觉推理能力，涵盖了广泛的视觉内容。生成式基础模型在解决各种任务时起到了重要作用，而专门的预训练方法在视觉背景下改善了图表推理。最近的研究强调了这些模型在实际应用中的日益重要性。

数学推理是人类智力的关键方面，应用于教育、数据分析和科学发现。现有的AI数学推理基准是基于文本的，缺乏视觉上下文。来自UCLA、华盛顿大学和微软研究机构的研究人员引入了MATHVISTA，这是一个综合性基准，结合了多种数学和图形挑战，以评估基础模型的推理能力。MATHVISTA包括多种推理类型、主要任务和各种视觉背景，旨在改善模型在实际应用中的数学推理能力。

MATHVISTA是一个用于在视觉背景中评估基础模型数学推理能力的基准。它采用任务类型、推理技能和视觉背景的分类法来策划现有数据集和新的数据集。该基准包括需要深入理解视觉和组合推理的问题。初步测试显示，它对GPT-4V造成了挑战，并强调了其重要性。

MATHVISTA揭示了最佳表现模型Multimodal Bard的准确率为34.8％，而人类表现显著高于60.3％。仅文本的LLMs优于随机基线，2-shot GPT-4的准确率达到29.2％。配备图像标题和OCR文本的增强LLMs表现更好，2-shot GPT-4的准确率达到33.9％。开源LMMs如IDEFICS和LLaVA由于数学推理、文本识别、形状检测和图表理解的局限性而表现不佳。

总之，MATHVISTA研究强调了在视觉背景中改善数学推理能力的需求，以及在将数学与视觉理解整合时面临的挑战。未来的发展方向包括开发具有增强的数学和视觉能力的通用LMMs，通过使用外部工具增强LLMs，并评估模型解释能力。该研究强调了推动AI代理执行数学密集且视觉丰富的实际任务的重要性，这可以通过在模型架构、数据和训练目标方面的创新来实现，以改进视觉感知和数学推理。