Press "Enter" to skip to content

4 search results for "IDEFICS"

Hugging Face推出IDEFICS:开创性的开放式多模态对话人工智能与视觉语言模型

在人工智能的动态领域中,一个持续存在的挑战给该领域的进展蒙上了一层阴影:围绕着最先进的AI模型的谜团。虽然不可否认地令人印象深刻,但这些专有的奇迹一直保持着一种隐藏着开放研究和发展进程的神秘氛围。Hugging Face的一支专门研究团队通过IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS)的引入,弥合了这个巨大的鸿沟。这个多模态语言模型不仅仅是一个简单的竞争者;在功能方面,它与其闭源的对手齐肩。 此外,它还以令人耳目一新的透明度运作,利用公开可用的数据。这个努力背后的推动力是鼓励开放性、可访问性和协作创新的人工智能。在一个渴望着开放性的AI模型,能够熟练处理文本和图像输入以产生连贯对话输出的世界中,IDEFICS成为进展的光芒。 虽然目前的方法值得赞赏,但它们仍然陷入了专有的限制中。然而,IDEFICS的领导者们提出了一个更大胆的建议:一个开放获取的模型,与其闭源的对手在性能上相当,并且完全依赖于公开可用的数据。这个具有远见的创造以Flamingo的强大为基石,有两个版本可供选择:一个有800亿参数的变体和一个有90亿参数的变体。这种范围的分歧确保了它在各种应用中的适应性。研究团队的愿望超越了简单的进步;他们希望建立一个透明的AI开发范式,解决多模态对话AI中的空白,并为其他人奠定舞台。 IDEFICS登场,一个真正的多模态模型奇才。它具有将图像和文本序列吸收为上下文连贯对话文本的天赋能力。这种创新与团队的总体透明度使命完美契合-这是一种贯穿其中的特质。该模型的基石是公开可用的数据和模型的堆叠,有效地推翻了进入门槛的壁垒。其性能证明了这一点:IDEFICS通过轻松回答关于图像的查询、生动地描述视觉叙事,甚至创造与多张图像相关的故事而令人惊叹。它的800亿和90亿参数版本的双重奏与前所未有的可扩展性相 resonates。这个多模态的奇迹,经过仔细的数据整理和模型开发,展开了开放研究和创新的新篇章。 https://huggingface.co/blog/idefics 作为对闭源专有模型所带来的困难的回应,IDEFICS成为开放创新的火球。超越简单的创造,这个模型象征着走向可访问和协作式AI开发的一大步。将文本和图像输入融合,产生一系列对话输出,预示着跨行业变革的来临。研究团队对透明度、道德审查和共享知识的奉献将人工智能的潜力凝结成实质,有望造福人类。在其本质上,IDEFICS展示了开放研究在引领超凡技术新时代方面的潜能。随着AI社区响应这一鼓舞人心的号召,可能性的边界扩展了,为更加光明、更加包容的数字明天带来了承诺。

Leave a Comment

介绍 IDEFICS:一个开放的最先进的视觉语言模型的再现

我们很高兴发布 IDEFICS(Image-aware Decoder Enhanced à la Flamingo with Interleaved Cross-attentionS),这是一个开放获取的视觉语言模型。IDEFICS基于Flamingo开发的最新视觉语言模型,Flamingo最初由DeepMind开发,尚未公开发布。与GPT-4类似,该模型接受任意的图像和文本输入序列,并输出文本结果。IDEFICS仅基于公开可用的数据和模型(LLaMA v1和OpenCLIP)构建,并提供两个变种——基础版本和指导版本。每个变种在90亿和800亿参数规模上都可用。 开发先进的AI模型应该更加透明。我们的目标是通过IDEFICS的复现和提供AI社区与Flamingo等大型专有模型相匹配的系统来推动透明度。因此,我们采取了重要的步骤,为这些AI系统带来透明度:我们仅使用公开可用的数据,我们提供了探索训练数据集的工具,我们分享了构建此类工件的技术教训和错误,并在发布之前通过对抗性提示评估了模型的有害性。我们希望IDEFICS能够为多模态AI系统的更加开放的研究提供坚实的基础,与OpenFlamingo等模型一起,后者是Flamingo在90亿参数规模下的另一个开放复现。 在Hub上尝试演示和模型! 什么是IDEFICS? IDEFICS是一个拥有800亿参数的多模态模型,它接受图像和文本序列作为输入,并生成连贯的文本作为输出。它可以回答关于图像的问题,描述视觉内容,创建基于多个图像的故事等。 IDEFICS是Flamingo的开放复现版本,在各种图像-文本理解基准测试中与原始闭源模型在性能上可比。它有两个变种——800亿参数和90亿参数。 我们还提供了针对对话使用案例进行调优的版本idefics-80B-instruct和idefics-9B-instruct。 训练数据 IDEFICS是在一系列公开可用的数据集上进行训练的:维基百科、公共多模态数据集和LAION,以及我们创建的一个新的包含1150亿标记的数据集,称为OBELICS。OBELICS包含从网络上抓取的1.41亿个交错的图像-文本文档,并包含3.53亿张图像。 我们提供了OBELICS的交互可视化,可以使用Nomic AI来探索数据集的内容。 IDEFICS的架构、训练方法和评估细节,以及关于数据集的信息,都可以在模型卡和我们的研究论文中找到。此外,我们还记录了模型训练中的技术见解和经验教训,提供了对IDEFICS开发的有价值的视角。 道德评估 在项目开始时,我们通过一系列讨论制定了一个道德宪章,该宪章将帮助指导项目期间的决策。该宪章阐明了价值观,包括自我批评、透明度和公平性,我们一直努力追求在项目和模型发布中贯彻这些价值观。 作为发布过程的一部分,我们通过对模型进行对抗性提示,使用可能引发我们不希望模型产生的响应的图像和文本来进行内部评估,以评估其潜在的偏见(这个过程称为红队测试)。…

Leave a Comment

揭秘图像中的数学:新的MathVista基准如何推动视觉和数学推理的AI界限

MATHVISTA被介绍为评估大型语言模型(LLMs)和大型多模态模型(LMMs)在视觉背景下的数学推理能力的基准。该标准结合了各种数学和图形任务,并包括现有的和新的数据集。初步评估涉及11个知名模型,包括LLMs,工具增强的LLMs和LMMs,在与人类能力相比存在可观的性能差距,表明进一步的发展是必要的。该基准对于开发具有数学和视觉推理能力的通用AI代理非常重要。 评估LLMs的数学推理能力的当前基准仅关注基于文本的任务,并且其中一些,如GSM-8K,显示出性能饱和。在科学领域,有一个对于强大的多模态基准的日益需要以解决这个限制。像VQA这样的基准探索了LMMs在自然图像之外的视觉推理能力,涵盖了广泛的视觉内容。生成式基础模型在解决各种任务时起到了重要作用,而专门的预训练方法在视觉背景下改善了图表推理。最近的研究强调了这些模型在实际应用中的日益重要性。 数学推理是人类智力的关键方面,应用于教育、数据分析和科学发现。现有的AI数学推理基准是基于文本的,缺乏视觉上下文。来自UCLA、华盛顿大学和微软研究机构的研究人员引入了MATHVISTA,这是一个综合性基准,结合了多种数学和图形挑战,以评估基础模型的推理能力。MATHVISTA包括多种推理类型、主要任务和各种视觉背景,旨在改善模型在实际应用中的数学推理能力。 MATHVISTA是一个用于在视觉背景中评估基础模型数学推理能力的基准。它采用任务类型、推理技能和视觉背景的分类法来策划现有数据集和新的数据集。该基准包括需要深入理解视觉和组合推理的问题。初步测试显示,它对GPT-4V造成了挑战,并强调了其重要性。 MATHVISTA揭示了最佳表现模型Multimodal Bard的准确率为34.8%,而人类表现显著高于60.3%。仅文本的LLMs优于随机基线,2-shot GPT-4的准确率达到29.2%。配备图像标题和OCR文本的增强LLMs表现更好,2-shot GPT-4的准确率达到33.9%。开源LMMs如IDEFICS和LLaVA由于数学推理、文本识别、形状检测和图表理解的局限性而表现不佳。 总之,MATHVISTA研究强调了在视觉背景中改善数学推理能力的需求,以及在将数学与视觉理解整合时面临的挑战。未来的发展方向包括开发具有增强的数学和视觉能力的通用LMMs,通过使用外部工具增强LLMs,并评估模型解释能力。该研究强调了推动AI代理执行数学密集且视觉丰富的实际任务的重要性,这可以通过在模型架构、数据和训练目标方面的创新来实现,以改进视觉感知和数学推理。

Leave a Comment

伦理与社会通讯第5期:“拥抱脸”走进华盛顿及其他2023年夏日的思考

关于AI中“伦理”最重要的一点是它与价值观有关。伦理不告诉你什么是对的或错的,它提供了一个价值观的词汇表,透明度、安全性、公正性,并提供了优先考虑它们的框架。今年夏天,我们能够将我们对AI中的价值观的理解带给欧盟、英国和美国的立法者,帮助塑造AI监管的未来。这就是伦理的闪光之处:在还没有法律制定的情况下帮助开辟前进道路。 符合Hugging Face对开放和问责的核心价值观,我们在这里分享了我们所说和所做的一些内容。其中包括我们CEO克莱姆在美国国会作证和美国参议院AI洞察论坛上的发言;我们对欧盟AI法案的建议;我们对NTIA关于AI问责的意见;以及我们首席伦理科学家梅格在民主党代表团的意见。在许多这些讨论中,经常出现的问题是为什么AI中的开放性是有益的,我们在这里分享了我们对这个问题的回答的一些内容here。 顺应我们的核心价值观民主化,我们也花了很多时间公开演讲,并有幸与记者进行交流,以帮助解释目前AI领域的情况。这包括: 莎夏在AI的能源使用和碳排放方面的评论(The Atlantic,The Guardian,两次,New Scientist,The Weather Network,华尔街日报,两次),以及参与了华尔街日报关于这一主题的发表的一部分;对AI末日风险的看法(Bloomberg,The Times,Futurism,Sky News);关于生成AI中的偏见的详细信息(Bloomberg,NBC,Vox);解释边缘化工人如何为AI创建数据(The Globe and Mail,The Atlantic);强调AI中的性别歧视(VICE);以及在MIT Technology Review上就AI文本检测、开放模型发布和AI透明度发表见解。 内森就语言模型和开放发佈的最新进展发表评论(WIRED,VentureBeat,Business Insider,Fortune)。 梅格就AI和虚假信息发表评论(CNN,半岛电视台,纽约时报);关于在AI中公平处理艺术家作品的需要(华盛顿邮报);生成AI的进展及其与更大利益的关系(华盛顿邮报,VentureBeat);通过报告解释记者如何更好地塑造AI的发展(CJR);以及解释AI中的基本统计概念困惑度(Ars Technica);并强调性别歧视的模式(Fast Company)。 艾琳就理解AI的监管环境发表评论(MIT Technology…

Leave a Comment

Can't find what you're looking for? Try refining your search: