“认识MMMU：一个全新的AI基准，旨在解决专家级多模式挑战，为人工智能通用智能铺平道路”

多模态预训练的进展解决了各种任务，如LXMERT、UNITER、VinVL、Oscar、VilBert和VLP等模型。FLAN-T5、Vicuna、LLaVA等模型增强了遵循指令的能力。而Flamingo、OpenFlamingo、Otter和MetaVL等模型则探索了上下文学习。VQA等基准注重感知，而MMMU则通过对要求专家级知识和有意识的推理的大学级问题的需求而脱颖而出。其独特的特点包括全面的知识覆盖、各种图像格式以及对专题特定推理的独特强调，使其与现有的基准相区别。

MMMU基准由来自IN.AI Research、滑铁卢大学、俄亥俄州立大学、独立研究机构、卡内基梅隆大学、维多利亚大学和普林斯顿大学的研究人员推出，涵盖了各种学科的大学级问题。强调专家级感知和推理，它是一个暴露现有模型面临重大挑战的基准。

该研究强调了评估朝着专家级人工智能发展取得进展的基准的必要性，超越了人类能力。目前的标准，如MMLU和AGIEval，侧重于文本，需要更多的多模态挑战。大型多模态模型（LMMs）显示出潜力，但现有的基准需要专家级领域知识。MMMU基准的引入旨在弥合这一鸿沟，涵盖了复杂的大学级问题，包括各种图像类型和交织的文本。它要求专家级感知和推理，为追求高级人工智能能力的LMMs提供了具有挑战性的评估。

专为评估专家级人工智能而设计的MMMU基准包含11,500个涵盖六个学科和30个主题的大学级问题。数据收集涉及根据视觉输入选择主题，参与学生标注者收集多模态问题，并进行质量控制。多个模型，包括LMM和LMMs，以零-shot的方式在MMMU上进行评估，测试它们在无微调或少量示范的情况下生成精确答案的能力。

MMMU基准对模型来说是具有挑战性的，因为GPT-4V的准确率仅为55.7%，表明还有很大的改进空间。专家级感知和推理需求使其成为LMMs和LMMs的严格评估。错误分析指出了视觉感知、知识表示、推理和多模态理解的挑战，为进一步研究提供了方向。MMMU以30种不同的图像格式覆盖大学级知识，强调了在基础模型中丰富培训数据集以增强在专门领域中的准确性和适用性的重要性。

总之，创建MMMU基准代表了对专家级人工智能评估中的LMMs的重大进展。这个基准挑战了当前模型对基本感知能力和复杂推理的评估，有助于了解专家级人工智能发展的进展。它强调了专家级性能和推理能力，突出了在视觉感知、知识表示、推理和多模态理解方面进一步研究的领域。建议通过丰富培训数据集与领域相关的知识，以提高准确性和在专门领域中的适用性。