四海吧 – Page 76 – 四海之内皆兄弟，四海带你涨姿势

介绍 IDEFICS：一个开放的最先进的视觉语言模型的再现

Published August 31, 2023 by 四海吧

我们很高兴发布 IDEFICS（Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS），这是一个开放获取的视觉语言模型。IDEFICS基于Flamingo开发的最新视觉语言模型，Flamingo最初由DeepMind开发，尚未公开发布。与GPT-4类似，该模型接受任意的图像和文本输入序列，并输出文本结果。IDEFICS仅基于公开可用的数据和模型（LLaMA v1和OpenCLIP）构建，并提供两个变种——基础版本和指导版本。每个变种在90亿和800亿参数规模上都可用。开发先进的AI模型应该更加透明。我们的目标是通过IDEFICS的复现和提供AI社区与Flamingo等大型专有模型相匹配的系统来推动透明度。因此，我们采取了重要的步骤，为这些AI系统带来透明度：我们仅使用公开可用的数据，我们提供了探索训练数据集的工具，我们分享了构建此类工件的技术教训和错误，并在发布之前通过对抗性提示评估了模型的有害性。我们希望IDEFICS能够为多模态AI系统的更加开放的研究提供坚实的基础，与OpenFlamingo等模型一起，后者是Flamingo在90亿参数规模下的另一个开放复现。在Hub上尝试演示和模型！什么是IDEFICS？ IDEFICS是一个拥有800亿参数的多模态模型，它接受图像和文本序列作为输入，并生成连贯的文本作为输出。它可以回答关于图像的问题，描述视觉内容，创建基于多个图像的故事等。 IDEFICS是Flamingo的开放复现版本，在各种图像-文本理解基准测试中与原始闭源模型在性能上可比。它有两个变种——800亿参数和90亿参数。我们还提供了针对对话使用案例进行调优的版本idefics-80B-instruct和idefics-9B-instruct。训练数据 IDEFICS是在一系列公开可用的数据集上进行训练的：维基百科、公共多模态数据集和LAION，以及我们创建的一个新的包含1150亿标记的数据集，称为OBELICS。OBELICS包含从网络上抓取的1.41亿个交错的图像-文本文档，并包含3.53亿张图像。我们提供了OBELICS的交互可视化，可以使用Nomic AI来探索数据集的内容。 IDEFICS的架构、训练方法和评估细节，以及关于数据集的信息，都可以在模型卡和我们的研究论文中找到。此外，我们还记录了模型训练中的技术见解和经验教训，提供了对IDEFICS开发的有价值的视角。道德评估在项目开始时，我们通过一系列讨论制定了一个道德宪章，该宪章将帮助指导项目期间的决策。该宪章阐明了价值观，包括自我批评、透明度和公平性，我们一直努力追求在项目和模型发布中贯彻这些价值观。作为发布过程的一部分，我们通过对模型进行对抗性提示，使用可能引发我们不希望模型产生的响应的图像和文本来进行内部评估，以评估其潜在的偏见（这个过程称为红队测试）。…

四海吧 Posts