大型语言模型(LLMs)近几个月来备受瞩目。作为人工智能领域最好的进展之一,这些模型正在改变人类与机器交互的方式。由于每个行业都在采用这些模型,它们是人工智能接管世界的最佳例证。 LLM在生成文本方面表现出色,尤其是在涉及复杂交互和知识检索的任务中,最著名的例子是OpenAI开发的基于GPT 3.5和GPT 4转换器架构的ChatGPT聊天机器人。除了文本生成外,像CLIP(对比性语言-图像预训练)这样的模型也已经被开发出来,用于图像生成,可以根据图像内容创建文本。 为了在音频生成和理解方面取得进展,谷歌的研究人员介绍了AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。 AudioPaLM结合了两个现有模型的优点,即PaLM-2模型和AudioLM模型,以产生一个统一的多模态架构,可以处理和生成文本和语音。这使得AudioPaLM可以处理各种应用,从语音识别到语音转文本。 虽然AudioLM擅长维护诸如讲话者身份和语气之类的语言信息,但是PaLM-2,即基于文本的语言模型,专门处理文本特定的语言知识。通过结合这两个模型,AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的语言信息保留,从而更全面地理解和创建文本和语音。 AudioPaLM利用联合词汇表,可以使用有限的离散标记表示语音和文本。将这个联合词汇表与标记任务描述相结合,可以在各种基于语音和文本的任务上训练单个仅解码器模型。传统上,语音识别,文本到语音合成和语音到语音翻译等任务是由分开的模型处理的,现在可以统一到单个架构和训练过程中。 在评估中,AudioPaLM在语音翻译方面的表现超过了现有系统。它展示了零-shot语音到文本翻译的能力,可以准确地将语音翻译为以前未遇到过的语言,从而为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的语音提示跨语言传递声音,并可以捕捉和复制不同语言中的不同声音,从而实现语音转换和适应。 该团队提到的关键贡献是: AudioPaLM利用了文本预训练中PaLM和PaLM-2s的能力。 它在自动语音翻译和语音到语音翻译基准方面取得了SOTA结果,并在自动语音识别基准方面表现出色。 该模型通过声音传递实现了声音到声音的翻译,超越了现有方法在语音质量和声音保留方面。 AudioPaLM通过执行未见过的语言组合的自动语音翻译来展示了零-shot能力。 总之,AudioPaLM是一个统一的LLM,通过利用基于文本的LLM的能力和结合音频提示技术来处理语音和文本,是LLM列表中值得期待的新成员。
Leave a CommentTag: Applications
在机器智能研究的最新发表论文中,一组研究人员深入探讨了视觉语言预训练(VLP)及其在多模态任务中的应用。该论文探讨了单模态训练的思想以及它与多模态适应性的不同之处。然后,该报告展示了VLP的五个重要领域:特征提取、模型架构、预训练目标、预训练数据集和下游任务。然后,研究人员回顾了现有的VLP模型以及它们如何在不同领域上进行适应和发展。 人工智能领域一直试图以与人类相同的方式对模型进行训练,让它们像人类一样感知、思考和理解模式和细微差别。各种尝试已经被做出来,以尽可能多地纳入数据输入领域,如视觉、音频或文本数据。但大多数这些方法都试图以单模态的方式解决“理解”的问题。 单模态方法是一种方法,在这种方法中,您只考虑一个方面来评估一种情况,例如在视频中,您只关注其音频或转录,而在多模态方法中,您尝试针对尽可能多的可用特征,并将它们纳入模型中。例如,在分析视频时,您会考虑音频、转录和说话者的面部表情,以真正“理解”上下文。 多模态方法本身具有挑战性,因为它需要大量的资源,并且需要大量的标记数据来训练能力强的模型。基于变压器结构的预训练模型通过利用自监督学习和附加任务从大规模无标记数据中学习通用表示来解决了这个问题。 以单模态方式预先训练模型,例如在NLP中的BERT,已经通过有限标记数据的微调表现出了显着的有效性。研究人员通过将相同的设计理念扩展到多模态领域来探索视觉语言预训练(VLP)的可行性。VLP使用预训练模型在大规模数据集上学习模态之间的语义对应关系。 研究人员回顾了VLP方法在五个主要领域中取得的进展。首先,他们讨论了VLP模型如何预处理和表示图像、视频和文本以获得相应的特征,并突出了使用的各种模型。其次,他们还探讨了单流和双流融合以及仅编码器与编码器-解码器设计的可用性和使用情况。 本文还更多地探讨了VLP模型的预训练,将其归类为完成、匹配和特定类型。这些目标很重要,因为它们有助于定义通用的视觉语言表示。研究人员还概述了预训练数据集的两个主要类别:图像语言模型和视频语言模型。该论文强调多模态方法如何帮助在理解上下文和生成更好映射内容方面实现更好的理解和准确性。最后,本文介绍了VLP中下游任务的目标和细节,强调它们在评估预先训练模型的有效性方面的重要性。 https://link.springer.com/content/pdf/10.1007/s11633-022-1369-5.pdf https://link.springer.com/content/pdf/10.1007/s11633-022-1369-5.pdf 本文提供了SOTA VLP模型的详细概述。它列出了这些模型并强调了它们的主要特点和性能。提及和覆盖的模型是前沿技术发展的坚实基础,也可作为未来发展的基准。 根据研究论文,VLP架构的未来看起来很有前途和可靠性。他们提出了各种改进领域,例如整合声学信息、知识和认知学习、快速调整、模型压缩和加速以及域外预训练。这些改进领域旨在激发新时代的研究人员在VLP领域取得突破性进展。
Leave a Comment过去2-3年,使用人工智能(AI)从文本生成图像的研究质量和数量出现了惊人的增长。在这个领域里最具突破性和革命性的工作之一是指最先进的生成模型——扩散模型。这些模型通过利用深度学习算法的能力,完全改变了如何使用文本描述生成高质量图像的方法。此外,除了扩散模型,还存在一系列功能强大的其他技术,提供了一条生成接近照片般逼真的视觉内容的令人兴奋的路径。然而,这些最先进技术取得的杰出成果也有一定的局限性。许多新兴的生成AI技术依赖于扩散模型,这需要复杂的架构和大量的计算资源进行训练和图像生成。这些先进的方法还降低了推理速度,使它们在实时实现方面不切实际。此外,这些技术的复杂性直接与它们所实现的进步相关,这对公众掌握这些模型的内部工作方式构成了挑战,从而导致它们被视为黑匣子模型。 为了解决前面提到的问题,德国Technische Hochschule Ingolstadt和Wand Technologies的研究人员提出了一种新颖的文本条件图像生成技术。这种创新技术与扩散类似,但生成高质量图像的速度更快。这个基于卷积的模型的图像采样阶段可以仅使用12个步骤完成,同时仍能产生出色的图像质量。这种方法因其显著的简单性和降低的图像生成速度而脱颖而出,从而允许用户对模型进行条件设置,并享受现有最先进技术中缺乏的优势。所提出的技术的固有简单性已经显著提高了其可访问性,使来自不同背景的个人能够轻松掌握和实施这种文本到图像技术。为了通过实验评估验证他们的方法,研究人员还训练了一个名为“Paella”的文本条件模型,该模型具有惊人的10亿个参数。该团队还在MIT许可证下开源了其代码和模型权重,以鼓励围绕他们的工作进行研究。 扩散模型经历了一个学习过程,逐步从每个训练实例中消除不同程度的噪声。在推理过程中,当呈现出纯噪声时,模型通过逐步减少几百个步骤的噪声来生成图像。德国研究人员设计的技术在很大程度上借鉴了这些扩散模型的原理。像扩散模型一样,Paella从代表图像的标记中去除不同程度的噪声,并利用它们生成新图像。该模型在LAION-5B美学数据集的900 million个图像-文本对上进行了训练。Paella使用基于卷积神经网络的预训练编码器-解码器体系结构,能够使用来自预训练期间学习的8192个标记集的256个标记来表示256 x 256的图像。为了在训练阶段为其示例添加噪声,研究人员还在此列表中包括了一些随机选择的标记。 为了基于图像的文本描述生成文本嵌入,研究人员利用了CLIP(对比语言-图像预训练)模型,该模型建立了图像和文本描述之间的联系。然后,采用U-Net CNN体系结构来训练模型生成完整的原始标记,利用先前迭代中生成的文本嵌入和标记。这个迭代过程重复了12次,每次逐渐替换以前生成的标记的一小部分。在剩余生成的标记的指导下,U-Net逐步减少每个步骤的噪声。在推理过程中,CLIP基于给定的文本提示产生一个嵌入,U-Net为随机选择的256个标记的完整集合重构了所有标记12次。最后,解码器利用生成的标记生成图像。 为了评估他们的方法的有效性,研究人员采用了Fréchet inception距离(FID)指标来比较Paella模型和稳定扩散模型得到的结果。虽然结果略微偏向稳定扩散,但Paella在速度方面具有显著优势。这项研究突出了先前的努力,因为它专注于完全重新配置架构,这在以前并未考虑过。总之,与现有的模型相比,Paella可以使用更小的模型大小和更少的采样步骤生成高质量的图像,仍然可以实现可观的结果。研究团队强调了他们方法的易用性,该方法提供了一个简单的设置,可以被从不同背景中的个人轻松采用,包括非技术领域,因为随着时间的推移,生成AI领域越来越受到关注。
Leave a Comment2023年是LLMs的年份。ChatGPT,GPT-4,LLaMA等新的LLM模型正在接连抢占聚光灯。这些模型已经彻底改变了自然语言处理领域,并越来越广泛地应用于各个领域。 LLMs具有展现广泛行为的显著能力,包括进行对话,这可以导致与类似人类的谈话者进行交谈的引人注目的幻觉。然而,重要的是要认识到,基于LLM的对话代理在几个方面与人类存在显着差异。 我们的语言技能是通过与世界的具体互动发展起来的。我们作为个体,通过社交化和沉浸在语言用户社区中获得认知能力和语言能力。这一过程在婴儿身上发生得更快,随着我们长大,我们的学习过程变慢,但基础仍然相同。 相比之下,LLMs是在大量人类生成的文本上进行训练的无体神经网络,其主要目标是基于给定的上下文预测下一个单词或标记。它们的训练围绕着从语言数据中学习统计模式,而不是通过直接体验物理世界。 尽管存在这些差异,但我们倾向于用LLMs来模仿人类。我们在聊天机器人、助手等方面使用这种方法。然而,这种方法带来了一个具有挑战性的困境。我们如何描述和理解LLMs的行为? 使用熟悉的民间心理学语言是很自然的,像使用“知道”、“理解”和“思考”这样的术语来描述对话代理,就像我们对待人类一样。然而,当这些语言被过分字面地理解时,这种语言会促进拟人化,夸大了AI系统和人类之间的相似之处,同时掩盖了它们的深刻差异。 那么我们如何应对这个困境?我们如何为AI模型描述“理解”和“知道”这些术语?让我们来看看“角色扮演”论文。 在这篇论文中,作者提出采用替代概念框架和隐喻来有效地思考和谈论基于LLM的对话代理。他们主张使用两个主要隐喻:将对话代理视为扮演单一角色或作为可能角色的多元超定位的模拟集合。这些隐喻提供了不同的角度来理解对话代理的行为,并具有其独特的优势。 自回归采样的示例。来源:https://arxiv.org/pdf/2305.16367.pdf 第一个隐喻将对话代理描述为扮演具体角色。当给定提示时,代理尝试以与分配的角色或人物相匹配的方式继续对话。它旨在根据与该角色相关联的期望进行回应。 第二个隐喻将对话代理视为来自各种来源的不同角色的集合。这些代理已经接受了广泛的材料培训,如书籍、脚本、采访和文章,这使它们对不同类型的角色和情节有很多了解。随着对话的进行,代理根据其训练数据调整其角色和人物,使其能够适应并以角色回应。 对话代理中的轮流发言的示例。来源:https://arxiv.org/pdf/2305.16367.pdf 通过采用这个框架,研究人员和用户可以探索对话代理人的重要方面,如欺骗和自我意识,而不会错误地将这些概念归因于人类。相反,重点转向理解对话代理人在角色扮演场景中的行为以及它们可以模仿的各种角色。 总之,基于LLM的对话代理人具有模拟人类对话的能力,但它们与实际人类语言用户有很大的不同。通过使用替代隐喻,比如将对话代理人视为角色扮演者或模拟的组合,我们可以更好地理解和讨论它们的行为。这些隐喻为基于LLM的对话系统的复杂动态提供了洞见,使我们能够欣赏它们的创造潜力,同时认识到它们与人类的根本区别。
Leave a Comment计算机视觉是人工智能领域中最受欢迎的领域之一。使用计算机视觉开发的模型能够从不同类型的媒体中提取有意义的信息,无论是数字图像、视频还是其他视觉输入。它教会了机器如何感知和理解视觉信息,然后根据细节采取行动。随着一种名为追踪任何点(TAPIR)的新模型的推出,计算机视觉取得了重大进步。TAPIR的目标是有效地跟踪视频序列中的特定兴趣点。 TAPIR模型由Google DeepMind、VGG、工程科学系和牛津大学的研究人员团队开发,其算法包括两个阶段——匹配阶段和精炼阶段。在匹配阶段,TAPIR模型单独分析每个视频序列帧,以寻找适合查询点的候选点匹配。这一步旨在确定查询点在每个帧中的最可能相关点,为了确保TAPIR模型能够跟踪查询点在视频中的运动,这个过程是逐帧进行的。 在确定候选点匹配的匹配阶段之后,TAPIR模型使用精炼阶段。在这个阶段中,TAPIR模型基于局部相关性更新轨迹(查询点所在路径)和查询特征,因此考虑到每个帧中的周围信息,以提高跟踪查询点的准确性和精度。通过集成局部相关性,精炼阶段提高了模型精确跟踪查询点的能力,并调整视频序列中的变化。 为了评估TAPIR模型,该团队使用了TAP-Vid基准测试数据集,它是用于视频跟踪任务的标准化评估数据集。结果显示,TAPIR模型的表现明显优于基线技术。使用称为平均Jaccard(AJ)的度量衡量的性能改进显示,TAPIR模型在DAVIS(密集注释视频分割)基准测试中的AJ相对于其他方法实现了约20%的绝对改进。 该模型旨在便于快速并行推理长视频序列,即它可以同时处理多个帧,提高跟踪任务的效率。该团队提到,该模型可以实时应用,使其能够处理和跟踪添加新视频帧的点。它可以在256×256视频上跟踪256个点,速度约为每秒40帧(fps),还可以扩展以处理更高分辨率的电影,使其具有处理各种大小和质量的视频的灵活性。 该团队为用户提供了两个在线Google Colab演示,以尝试TAPIR而无需安装。第一个Colab演示允许用户在自己的视频上运行模型,提供交互式体验以测试和观察模型的性能。第二个演示重点介绍如何在线运行TAPIR。此外,用户可以通过克隆提供的代码库,在现代GPU上跟踪自己的网络摄像头上的点并实时运行TAPIR。
Leave a CommentAI工具正在快速发展,新的工具不断推出。查看下面一些可以增强您日常工作的AI工具。 tl;dv 这个工具由GPT模型提供动力,是Zoom和Google Meet的会议记录器。 tl;dv 为用户转录和总结通话。 Otter AI Otter.AI使用人工智能,为用户提供实时会议笔记转录,这些笔记可共享、可搜索、易于访问和安全。 Taskade Taskade是一款AI生产力工具,可帮助用户高效地管理任务和项目。 Notion AI Notion AI是一款写作助手,可以帮助用户在Notion工作区内写作、头脑风暴、编辑和总结。 Bing 微软推出了AI驱动的Bing搜索引擎,就像在搜索网络时拥有研究助手、个人计划师和创意伙伴。 Bard Bard是由Google开发的聊天机器人,可帮助提高生产力并将想法变为现实。 Forefront Forefront AI是一个平台,提供GPT-4、图像生成、自定义角色和可共享聊天等免费访问,从而为企业提供了改进的效率和用户体验。 Merlin Merlin是一个ChatGPT扩展程序,可帮助用户在任何网站上完成任何任务,提供博客摘要和Gmail AI写手等功能。…
Leave a Comment大型语言模型(LLMs)已经成为了人工智能领域的热门话题。它们近期的影响和惊人的表现已经帮助医疗保健、金融、娱乐等各个行业做出了很大的贡献。像 GPT-3.5、GPT 4、DALLE 2 和 BERT 这样的知名 LLMs,也被称为基础模型,可以执行非凡的任务,通过提供一个简短的自然语言提示,为我们生活带来了独一无二的内容。 最近的视觉基础模型(VFMs)如 SAM、X-Decoder 和 SEEM 在计算机视觉方面取得了许多进展。虽然 VFMs 在 2D 感知任务方面取得了巨大的进步,但 3D VFM 研究仍需要改进。研究人员建议扩展当前的 2D VFMs 用于 3D 感知任务。一个关键的…
Leave a Comment人类总是与周围环境互动。他们在空间中移动,触摸物品,坐在椅子上或睡在床上。这些互动详细说明了场景设置和物体位置。默剧演员利用他们对这种关系的理解,仅凭身体动作创造富有想象力的3D环境。他们能教计算机模仿人类动作并制作合适的3D场景吗?包括建筑、游戏、虚拟现实和合成合成数据的多个领域可能会从这种技术中受益。例如,有大量的3D人体运动数据集,例如AMASS,但这些数据集很少包含有关它们采集的3D设置的详细信息。 他们能够使用AMASS为所有动作创建可信的3D场景吗?如果可以,他们可以使用AMASS创建具有现实人类-场景互动的训练数据。他们开发了一种新颖的技术,称为MIME(挖掘互动和运动以推断3D环境),它基于3D人体运动创建可信的内部3D场景,以响应此类查询。它是如何实现的?以下是基本假设:(1)空间内的人体运动表示物品的缺失,从本质上定义了图片中没有家具的区域。此外,它在接触场景时限制了3D物体的种类和位置;例如,坐着的人必须坐在椅子、沙发、床等上。 图1:从人类运动中估计3D场景。他们使用3D人体运动(左侧)重新创建出现过的现实3D设置,例如从运动捕捉或身体穿戴传感器中获得的运动。他们的生成模型能够生成多种逼真的场景(右侧),其中考虑了人与场景的适当互动,包括人的位置和姿势。 德国智能系统Max Planck研究所和Adobe的研究人员创建了MIME,这是一种基于变压器的自回归3D场景生成技术,以将这些直觉转化为具体形式。给定一个空的平面图和一个人体运动序列,MIME预测人体将接触到的家具。此外,它预测不会与人接触但与其他物品相匹配并符合人体运动带来的自由空间限制的可信物品。他们将运动分为接触和非接触片段,以为人体运动条件3D场景创建。他们使用POSA估计可能的接触姿势。非接触姿势将脚的顶点投射到地面平面上,以建立房间的自由空间,并将其记录为2D地图。 POSA预测的接触顶点创建反映接触姿势和相关的3D人体模型的3D边界框。满足接触和自由空间标准的对象被期望自回归使用此数据作为变压器的输入;参见图1。他们扩展了大规模合成场景数据集3D-FRONT,创建了一个名为3D-FRONT HUMAN的新数据集,以训练MIME。他们自动向3D场景中添加人物,包括非接触人物(一系列步行动作和站立的人)和接触人物(坐、接触和躺着的人)。为此,他们使用RenderPeople扫描的静态接触姿势和AMASS的运动序列。 MIME在推理时间为输入运动创建逼真的3D场景布局,表示为3D边界框。他们从3D-FUTURE集合中选择3D模型,然后根据人的位置和场景之间的几何限制微调它们的3D位置。他们的方法在不进行任何调整的情况下适用于已记录的真实运动序列,例如PROX-D。 总之,它们提供以下内容: • 一款全新的运动条件生成模型,用于自动回归地创建与人接触但避免占据运动定义空位的物品的3D房间场景。 • 通过使用来自AMASS的运动数据和RenderPeople的静态接触/立姿姿势,创建了一个由互动人物和自由空间中的人物组成的全新3D场景数据集。 他们的代码和视频演示均可在GitHub上获得。他们还有一个视频解释他们的方法。
Leave a CommentAI语言模型正在成为我们生活中必不可少的一部分。几十年来,我们一直使用谷歌来获取信息,但现在,我们正慢慢地转向ChatGPT。它提供简洁的答案、清晰的解释,通常更快地找到我们所寻找的信息。 这些模型从我们多年来产生的数据中学习。因此,我们将我们的偏见传递给了AI模型,这是该领域的一个争议话题。一个特别引起关注的偏见是代词分布中的性别偏见,其中模型倾向于根据上下文喜欢使用带有性别色彩的代词,如“他”或“她”。 解决这种性别偏见对于确保公平和包容的语言生成至关重要。例如,如果你以“CEO认为…”开头的句子,模型会继续使用他,如果你用护士代替CEO,下一个标记就变成了她。这个例子是一个有趣的案例研究,可以研究偏见并探索缓解偏见的方法。 事实证明,上下文在塑造这些偏见方面起着至关重要的作用。通过用与不同性别相关联的职业代替CEO,实际上可以翻转观察到的偏见。但是,这里的挑战在于:实现在CEO出现的所有不同上下文中的一致去偏见并不容易。我们希望的是可靠和可预测的干预措施,无论特定情况如何,它们都能起作用。毕竟,在理解和改善语言模型方面,可解释性和控制性是关键。不幸的是,当前的Transformer模型虽然在性能方面令人印象深刻,但并不完全符合这些标准。他们的上下文表示引入了各种复杂和非线性的影响,这些影响取决于手头的上下文。 那么,我们该如何克服这些挑战?我们如何解决我们在大型语言模型中引入的偏见?我们应该改进Transformer,还是应该提出新的结构?答案是Backpack Language Models。 Backpack LM通过利用称为感觉向量的非上下文表示来解决去偏见代词分布的挑战。这些向量捕捉单词意义的不同方面以及其在不同上下文中的角色,使单词具有多种个性。 Backpack LM概述。来源:https://arxiv.org/pdf/2305.16765.pdf 在Backpack LMs中,预测是非上下文表示的对数线性组合,称为感觉向量。词汇表中的每个单词都由多个感觉向量表示,编码单词在不同上下文中的不同学习方面。这些感觉向量在特定上下文中具有特定的专业性,并且可以具有预测性。序列中单词的感觉向量的加权和形成每个单词的Backpack表示,权重由作用于整个序列的上下文化函数确定。通过利用这些感觉向量,Backpack模型实现了在所有上下文中表现出可预测干预的精度。 这意味着我们可以对模型进行非上下文的更改,以始终影响其行为。与Transformer模型相比,Backpack模型提供了一个更透明和可管理的接口。它们提供了更易于理解和控制的精确干预措施。此外,Backpack模型在性能方面也不会有所妥协。事实上,它们在提供增强可解释性的同时也能够达到与Transformers相当的结果。 感觉向量示例。来源:https://backpackmodels.science/ Backpack模型中的意义向量编码了丰富的词义概念,在词汇相似性任务上表现优于最先进的Transformer模型中的词嵌入。此外,对意义向量的干预,例如减少专业词汇中的性别偏见,展示了Backpack模型提供的控制机制。通过缩小与性别偏见相关联的意义向量,在有限的场景中可以实现显著降低上下文预测差异。
Leave a Comment大型语言模型在各种任务中表现出了卓越的性能。从生产独特且有创意的内容和提出问题答案,到翻译语言和概括文本段落,LLM在模拟人类方面非常成功。一些知名的LLM,如GPT、BERT和PaLM,因准确遵循指令和访问大量高质量数据而成为头条新闻。像GPT4和PaLM这样的模型不是开源的,这阻止了任何人了解其架构和训练数据。另一方面,像Pythia、LLaMA和Flan-T5这样的开源LLM提供了一个机会,让研究人员在自定义指令数据集上微调和改进模型。这使得像Alpaca、Vicuna、OpenAssistant和MPT这样的更小更高效的LLM得以开发。 市场上没有一个单一的开源LLM处于领先地位,而不同例子的最佳LLM可能会有很大的差异。因此,为了不断为每个输入产生改进的答案,动态整合这些LLM是必要的。通过整合各种LLM的独特贡献,可以减少偏见、误差和不确定性,从而产生更符合人类偏好的结果。为了解决这个问题,来自艾伦人工智能研究所、南加州大学和浙江大学的研究人员提出了LLM-BLENDER,这是一个集成框架,通过利用多个开源大型语言模型的许多优势,始终获得卓越的性能。 LLM-BLENDER由两个模块组成——PAIRRANKER和GENFUSER。这些模块表明,不同例子的最佳LLM可能会有很大的差异。第一个模块PAIRRANKER被开发出来,用于识别潜在输出之间微小的变化。它使用先进的成对比较技术,其中原始文本和来自各种LLM的两个候选输出作为输入。为了共同编码输入和候选对,它利用交叉注意力编码器,如RoBERTa,PAIRRANKER可以使用这种编码来确定两个候选的质量。 第二个模块GENFUSER专注于合并排名靠前的候选项以生成更好的输出。它最大程度地利用所选候选项的优点,同时最小化它们的缺点。GENFUSER旨在通过合并各种LLM的输出来开发优于任何一个LLM的输出。 为了评估,团队提供了一个称为MixInstruct的基准数据集,它结合了Oracle成对比较和各种指令数据集。该数据集使用11个流行的开源LLM为各种遵循指令的任务生成多个输入的候选项。它包括训练、验证和测试示例,具有自动评估的Oracle比较。这些Oracle比较已用于为候选输出排名,从而可以评估LLM-BLENDER和其他基准技术的性能。 实验结果表明,LLM-BLENDER在各种评估参数上的表现要比单独的LLM和基准技术好得多。它建立了一个相当大的性能差距,并表明采用LLM-BLENDER集成方法可以产生比单个LLM或基准方法更高质量的输出。PAIRRANKER的选择在基于参考的度量和GPT-Rank方面的表现优于单个LLM模型。通过高效的融合,GENFUSER通过利用PAIRRANKER的首选项显著提高了响应质量。 LLM-BLENDER还优于像Vicuna这样的单个LLM,因此展示了通过集成学习来改进LLM部署和研究的巨大潜力。
Leave a Comment大型语言模型(LLMs),包括GPT-3、PaLM、OPT、BLOOM和GLM-130B,极大地推动了计算机在语言理解和生成方面的可能性。其中最基本的语言应用之一,即问答,由于最近LLM的突破而得到了显着改进。根据现有研究,LLMs的闭书QA和上下文学习QA的表现与受监督模型相当,这有助于我们对LLMs的记忆能力的理解。但即使是LLMs也有限制,当面对需要大量特殊知识的问题时,它们无法达到人类的期望。因此,最近的尝试集中在构建增强了外部知识(包括检索和在线搜索)的LLMs上。 例如,WebGPT能够进行在线浏览,对复杂问题提供详细的答案和有用的参考。尽管它很受欢迎,但原始的WebGPT方法尚未被广泛采用。首先,它依赖于对浏览轨迹、精心撰写的响应和答案偏好标注的许多专家级注释,所有这些都需要昂贵的资源、大量的时间和广泛的培训。其次,通过告诉系统与Web浏览器交互,给出操作指令(如“搜索”、“阅读”和“引用”),然后从在线来源收集相关材料,行为克隆方法(即模仿学习)需要其基本模型GPT-3类似于人类专家。 最后,Web浏览的多轮结构需要大量的计算资源,并且对于用户体验来说可能过于缓慢,例如,WebGPT-13B需要大约31秒才能回答一个500个标记的查询。清华大学、北京航空航天大学和智普AI的研究人员在本研究中介绍了WebGLM,这是一个基于100亿参数的通用语言模型(GLM-10B)构建的稳健的Web增强质量保证系统。图1展示了其中的一个示例。它是有效、经济、对人类偏好敏感,最重要的是,它与WebGPT的水平相当。为了获得良好的性能,该系统使用了几种新颖的方法和设计,包括LLM增强检索器,一种将细粒度的LLM蒸馏检索与粗粒度的Web搜索相结合的两阶段检索器。 像GPT-3这样的LLMs自然接受正确的引用的能力是这种技术的灵感来源,这可以通过适当的基于引文的过滤来改进较小的密集检索器。基于LLM上下文学习引导并在引用的长形QA样本上进行训练的基于GLM-10B的响应生成器被称为引导生成器。LLMs可以通过足够的基于引文的过滤来提供高质量的数据,而不是依靠昂贵的人类专家在WebGPT中编写。一个得分器,通过在线QA论坛上的用户点赞信号进行教学,可以了解人类多数人对各种答复的偏好。 图1显示了WebGLM对样本查询的回答快照,附带了在线资源的链接。 他们展示了一种合适的数据集架构可以产生与WebGPT的专家标注相比的高质量评分器。他们的定量消融测试和深入的人类评估结果显示了WebGLM系统的高效和有效。特别是,WebGLM(10B)在他们的图灵测试中优于WebGPT(175B),并且优于大小相似的WebGPT(13B)。WebGLM是目前最好的公开可用的Web增强QA系统之一,得益于对唯一公开可用系统Perplexity.ai的改进。总之,在本文中,他们提供了以下内容:•他们建立了WebGLM,这是一个有效的带有人类偏好的Web增强质量保证系统。它的性能类似于WebGPT(175B),并且比类似大小的WebGPT(13B)要好得多。 它还超越了由LLMs和搜索引擎驱动的流行系统Perplexity.ai。•他们在现实世界的部署中确定了WebGPT的局限性。他们提出了一组新的设计和策略,以在实现基线系统的高准确性的同时实现高效和具有成本效益的优势。•他们制定了人类评估指标,用于评估Web增强型QA系统。广泛的人类评估和实验证明了WebGLM的强大能力,并为系统未来的发展产生了见解。代码实现可在GitHub上找到。
Leave a Comment多方面的模型致力于整合来自不同来源的数据,包括书面语言、图片和视频,以执行各种功能。这些模型在理解和生成融合视觉和文本数据的内容方面展示了相当大的潜力。 多方面模型的一个关键组成部分是指令调整,它涉及基于自然语言指令对模型进行微调。这使得模型可以更好地理解用户的意图并生成精确而相关的响应。指令调整已经在大型语言模型(LLMs)如GPT-2和GPT-3中得到有效应用,使它们能够遵循指令以完成现实任务。 现有的多模态模型方法可以分为系统设计和端到端可训练模型两个方面。系统设计角度将不同的模型连接起来,使用类似ChatGPT的调度程序,但缺乏训练灵活性并可能成本高昂。端到端可训练模型角度将来自其他模态的模型集成在一起,但可能具有高训练成本或有限的灵活性。以前在多模态模型中的指令调整数据集缺乏上下文示例。最近,来自新加坡的一个研究团队提出了一种新方法,引入了上下文指令调整,并构建了具有上下文示例的数据集以填补这一空白。 本研究的主要贡献包括: 引入用于多模态模型中的指令调整的MIMIC-IT数据集。 开发具有改进指令跟踪和上下文学习能力的Otter模型。 优化OpenFlamingo实现,以便更易于访问。 这些贡献为研究人员提供了有价值的数据集、增强的模型和更加用户友好的框架,以推进多模态研究。 具体来说,作者介绍了MIMIC-IT数据集,旨在增强OpenFlamingo的指令理解能力,同时保留其上下文学习能力。该数据集由具有上下文关系的图像-文本对组成,而OpenFlamingo旨在基于上下文示例为查询的图像-文本对生成文本。MIMIC-IT数据集的介绍是为了增强OpenFlamingo的指令理解能力,同时保持其上下文学习。它包括图像-指令-答案三元组及其对应的上下文。OpenFlamingo是一个框架,使多模态模型能够根据图像和上下文示例生成文本。 在训练过程中,Otter模型遵循OpenFlamingo范例,冻结预训练的编码器并微调特定模块。训练数据遵循特定格式,包括图像、用户指令、“GPT”生成的答案和[endofchunk]令牌。该模型使用交叉熵损失进行训练,用Please view this post in your web browser to complete the quiz.令牌分隔预测目标的解决方案。 作者将Otter集成到Hugging Face Transformers中,以便轻松重用和集成到研究人员的流程中。他们针对4×RTX-3090 GPU进行了模型优化,并支持完全分片数据并行(FSDP)和DeepSpeed以提高效率。他们还提供了一个脚本,用于将原始OpenFlamingo检查点转换为Hugging…
Leave a Comment人工智能领域最新和最令人难以置信的进展是大型语言模型(LLM)的发展。著名的ChatGPT由OpenAI开发,基于GPT 3.5和GPT 4架构,通常因其生成内容和回答问题的能力,就像人类一样,而受到广泛关注。它模仿人类生成创造性和精确内容的能力,使其能够在几乎所有行业中进行问题解决。通过添加Chain-of-Thought(CoT)提示,像GPT 3.5这样的LLM的影响得到了改进,从而导致信息处理行业的重大变化。CoT增强了LLM并帮助它们生成更全面和详细的推理过程,以一系列中间步骤进行。 虽然CoT提供了许多优势,但它对中间推理阶段的强调有时会导致幻觉和复合错误,这使得模型难以生成一致和准确的推理过程。为了解决这些挑战,一组研究人员引入了自然程序,这是一种自然语言基础的演绎推理格式,利用自然语言的内在力量来实现演绎推理。 该团队指出,这种方法将推理验证过程分解为一些顺序子过程。每个子过程仅提供特定步骤所需的上下文和前提条件,分解使验证过程更加可接近。作者使用了公开可访问的模型,例如OpenAI的GPT-3.5-turbo(175B),对算术和常识数据集进行了试验,以展示他们基于自然程序的验证技术的有效性。结果展示了他们的策略如何有效地增加大型语言模型生成的推理过程的可靠性。 自然程序格式使语言模型能够生成精确的推理步骤,确保后续步骤更加严格地基于前一步骤。通过使用这种结构,语言模型以逐步方式执行推理自我验证,由于验证程序集成到演绎推理的每个级别中,因此产生的推理阶段更加严格和可靠。 团队提到的一些关键贡献是: 引入自然程序格式,提出了一种适用于验证的严格演绎推理框架,可通过上下文学习简单制作。 通过实验,团队展示了提出的自然程序格式编写的长时间演绎推理过程可以通过使用仅涵盖先决上下文和前提条件的逐步子过程进行可靠的自我验证。 通过实验,团队展示了该框架如何有效提高LLM生成的推理阶段和解决方案的准确性、可靠性和可解释性。 总之,这个框架似乎有望提高语言模型的演绎推理能力。
Leave a Comment近期大型语言模型(LLMs)的发展已经在多个领域展示了它们令人印象深刻的问题解决能力。LLMs可以包含数百亿个参数,并且是在庞大的文本语料库上训练的。 研究表明,在LLM推理中,内存带宽而不是CPU是生成任务的关键性能限制。这表明,在内存受限情况下,参数可以被加载和存储的速率,而不是算术运算,成为关键延迟障碍。然而,内存带宽技术的进展远远落后于计算,从而导致了所谓的内存墙现象。 量化是一种有前途的方法,它涉及将模型参数存储在比训练中使用的通常的16或32位精度更低的精度下。尽管近来有了像LLaMA及其指令跟踪变体这样的进展,但是在低比特精度和相对较小的模型(例如50B参数)下实现良好的量化性能仍然很困难。 加州大学伯克利分校的一项新研究深入研究了低比特精度量化,揭示了当前方法的缺点。基于这些发现,研究人员引入了SqueezeLLM,这是一个后训练量化框架,它将密集和稀疏分解技术与独特的基于灵敏度的非均匀量化策略相结合。这些方法允许在超低比特精度下进行量化,同时保持竞争性的模型性能,大大减少了模型大小和推理时间成本。他们的方法将LLaMA-7B模型的困惑度从均匀量化的28.26降至3位精度下的7.75,这是一个相当大的改进。 通过在C4和WikiText2基准测试上进行全面测试,研究人员发现,在应用于语言建模任务的LLaMA-7B、13B和30B时,SqueezeLLM在不同比特精度下始终比现有的量化方法表现更好。 根据团队的说法,由于权重矩阵中存在大量的异常值,因此许多LLMs的低比特精度量化特别困难。这些异常值同样影响它们的非均匀量化方法,因为它们会将位的分配偏向极高或极低的值。为了消除异常值,他们提供了一种简单的方法,将模型权重分成密集和稀疏组件。通过隔离极端值,中心区域显示出更窄的范围,最高可达10,从而获得更好的量化精度。使用高效的稀疏存储方法,如压缩稀疏行(CSR),可以将稀疏数据保持完整精度。该方法使用高效的稀疏核心函数处理稀疏部分,并将计算并行化处理密集部分,从而产生低开销。 研究团队通过将SqueezeLLM应用于Vicuna-7B和13B模型,演示了他们框架对IF模型量化的潜在效果。在测试中,他们比较了两个系统。首先,他们使用MMLU数据集来衡量模型的知识和问题解决能力,以评估生成的输出的质量。他们还使用GPT-4来排名量化模型相对于FP16基线的生成质量,使用Vicuna中提出的评估方法。在两个基准测试中,SqueezeLLM始终优于GPTQ和AWQ这两种目前的最先进的方法。值得注意的是,在这两个评估中,4位量化模型的表现与基线相同。 该研究展示了他们的模型在A6000 GPU上运行时的显著延迟降低和量化性能的进展。研究人员展示了LLaMA-7B和13B相对于基线FP16推理的速度提升高达2.3倍。此外,所提出的方法实现了比GPTQ高达4倍的更快的延迟,展示了它在量化性能和推理效率方面的功效。
Leave a Comment大型语言模型在不改变模型参数的情况下具有上下文学习技能,可以只给出少量实例就完成工作。由于具有任务不可知性,因此一个模型可以用于各种任务。相反,传统的任务适应技术,包括微调,会为每个任务修改模型参数。尽管如此,上下文学习很少是从业者的选择方法,因为它通常表现不如任务特定的适应技术。以前的大多数研究都将这种性能差异归咎于LLM的受限上下文窗口,该窗口只能容纳少量的任务案例。 然而,他们证明即使在给定相同任务示例的情况下,上下文学习和微调技术之间的差距仍然存在。这一发现引起了他们的关注:任务不可知适应策略的性能差异是一般性质限制还是只对上下文学习具有唯一性。他们能否特别创建符合以下要求的适应策略: • 任务不可知:同一模型适用于各种活动。 • 质量:在这些多个任务中,实现与任务特定方法竞争的准确性。 • 数据可扩展性:随着任务实例数量的增加,学习效率增加。他们首先研究质量差距的原因。 他们将LLM的上下文学习能力分为两个组成部分:有效任务表示的获取和这些表示上的概率推理或推理执行。差距是由表示中的信息缺失还是由LLM无法分析它们造成的?通过在多个二元分类任务中评估LLM家族的推理和表示差距,他们在经验上测试了这个概念。他们得出结论,LLM具有良好的表示形式,并且大部分质量差异是由他们的推理能力较弱造成的。 他们还发现微调在两个方面都可以增强基本模型,但主要是增强任务特定推理,占性能提升的72%。令人惊讶的是,大多数缩小性能差距的方法,例如提示工程和活动示例选择,只针对LLM的学习表示形式。相反,他们的研究探讨了一种增强LLM推理能力的替代策略。他们使用人工创建的概率推理挑战来改善LLM的推理能力。虽然这种方法提高了模型的基线上下文学习性能,但它也需要单独微调每个LLM。 他们更进一步,推测以一种与任务和模型无关的方式发展推理能力的前景。他们证明了可以采取完全不可知的方法来增强推理能力。在这项研究中,来自斯坦福大学和康奈尔大学的研究人员提出了Tart,它使用合成教授的推理模块来提高LLM的推理能力。Tart只使用合成的逻辑回归问题进行训练,而不管下游任务或基本LLM,以训练基于Transformer的推理模块。不需要进一步的训练,这个推理模块可以使用LLM的嵌入来构建,以增强其演绎能力。 特别是,Tart实现了必要的目标: • 任务中立:Tart的推理模块必须使用虚构数据进行一次训练。 • 质量:在各种NLP任务中,表现比基本LLM好,使用任务特定的微调技术缩小了差距。 • 数据可扩展性:处理比上下文学习多10倍的实例。 Tart与任务、模型和领域无关。他们证明,Tart在14个NLP分类任务上跨越三个模型系列,并在不同的领域中泛化,使用单个用合成数据训练的推理模块。他们证明,Tart的性能在质量方面优于上下文学习18.4%,任务特定适配器3.4%和完全任务特定微调3.1%。在RAFT基准测试中,Tart将GPT-Neo的性能提高到与GPT-3和Bloom相同的水平,同时超过后者4%。 Tart解决了上下文学习的不便的短期限制,并且具有数据可扩展性。在LLM中,每个示例可能占用多个标记,通常是数百个,而Tart的推理模块仅使用每个案例的两个标记 – 一个用于上下文,一个用于标签。这种数据可扩展性可能带来的好处可达6.8%。从理论上讲,他们证明了Tart的泛化能力主要取决于合成数据分布和自然文本嵌入分布之间的分布偏移,由Wasserstein-1指标评估。 以下是他们的主要贡献概述: • 使用表示推理分解,研究为什么针对特定任务的微调在访问相同信息的情况下优于上下文学习。…
Leave a Comment人类通过观察世界学习了大量的背景信息。自去年以来,Meta团队一直在开发能够学习世界运作内部模型的计算机,使它们能够更快地学习,规划如何完成具有挑战性的工作,并快速适应新颖的条件。为了使系统有效,这些表征必须直接从未标记的输入(如图像或声音)中学习,而不是手动组装标记数据集。这个学习过程被称为自我监督学习。 生成式架构通过遮盖或删除用于训练模型的数据的部分来进行训练。这可以用图像或文本来完成。然后,它们会猜测缺少或失真的像素或单词。然而,生成式方法的一个主要缺点是,模型试图填补任何知识上的空白,尽管真实世界存在的不确定性。 Meta的研究人员刚刚推出了他们的第一个人工智能模型。通过比较图像的抽象表征(而不是比较像素本身),他们的图像联合嵌入预测架构(I-JEPA)可以学习和改进。 根据研究人员的说法,JEPA将摆脱固定性预训练所困扰的偏见和问题,因为它不涉及将图像的多个视图/增强的表征折叠成单个点。 I-JEPA的目标是使用更接近个体思维方式的表征来填补知识空白。所提出的多块遮罩方法是另一个重要的设计选项,它有助于将I-JEPA引向开发语义表征。 I-JEPA的预测器可以被认为是一个有限的、原始的世界模型,它可以基于有限的上下文信息描述静止图像中的空间不确定性。此外,这个世界模型的语义性质使得它能够推断出以前未知的图像部分,而不仅仅依赖于像素级别的信息。 为了查看模型在被要求预测蓝框内的输出时的结果,研究人员训练了一个随机解码器,将I-JEPA预测的表征转换回像素空间。这种定性分析证明了模型可以学习视觉对象的全局表征,而不会失去这些对象在框架中的位置。 使用I-JEPA进行预训练需要很少的计算资源。它不需要额外的复杂数据增强来提供不同的视角。研究结果表明,I-JEPA可以学习稳健的、预先构建的语义表征,而不需要自定义视角增强。在ImageNet-1K上进行的线性探测和半监督评估也超过了像素和令牌重构技术。 与其他语义任务的预训练方法相比,尽管依赖于手动制作的数据增强,I-JEPA仍然表现出色。I-JEPA在对象计数和深度预测等基本视觉任务上胜过这些方法。由于使用了更少复杂的模型和更灵活的归纳偏差,I-JEPA适用于更多的情况。 团队认为,JEPA模型在视频解释等领域的创造性应用前景非常广阔。使用和扩展这样的自我监督方法来开发广泛的世界模型是一个重大进步。
Leave a Comment一年前,利用人工智能生成逼真的图像还只是一个梦想。我们对看到的生成人脸的相似度感到印象深刻,尽管大多数输出结果有三只眼睛,两个鼻子等等。然而,随着扩散模型的发布,事情迅速发生了变化。现在,很难区分由人工智能生成的图像和真实的图像。 生成高质量图像的能力只是方程式的一部分。如果我们能够适当地利用它们,高效压缩它们在内容生成、数据存储、传输和带宽优化等任务中扮演着至关重要的角色。然而,图像压缩主要依赖于传统的方法,如变换编码和量化技术,对生成模型的探索有限。 尽管扩散模型和基于分数的生成模型在图像生成方面取得了成功,但它们尚未成为图像压缩的主流方法,落后于基于GAN的方法。它们在高分辨率图像上表现得更差或与HiFiC等基于GAN的方法相当。即使试图将文本到图像模型重新用于图像压缩,也产生了令人不满意的结果,产生了偏离原始输入或包含不良工件的重建。 基于分数的生成模型在图像生成任务中的表现与它们在图像压缩方面的有限成功之间的差距引发了有趣的问题,促使进一步的研究。令人惊讶的是,能够生成高质量图像的模型尚未能够在图像压缩的特定任务中超越GAN。这种差异表明,在将基于分数的生成模型应用于压缩任务时可能存在独特的挑战和考虑因素,需要专门的方法来发挥它们的全部潜力。 因此,我们知道基于分数的生成模型在图像压缩方面有潜力。问题是,如何做到呢?让我们来看看答案。 谷歌研究人员提出了一种方法,将一个标准的自编码器,针对均方误差(MSE)进行了优化,与扩散过程相结合,以恢复并添加自编码器丢弃的细节。编码图像的比特率完全由自编码器确定,因为扩散过程不需要额外的比特。通过专门为图像压缩调整扩散模型,显示出它们可以在图像质量方面优于几种最新的生成方法。 所提出的方法可以较好地保留细节,相较于现有的方法。来源:https://arxiv.org/pdf/2305.18231.pdf 该方法探索了两种密切相关的方法:扩散模型表现出了令人印象深刻的性能,但需要大量采样步骤,而修正流在允许更少的采样步骤时表现更好。 这种两步方法首先使用MSE优化的自编码器对输入图像进行编码,然后应用扩散过程或修正流来增强重建的逼真度。扩散模型采用与文本到图像模型相反的噪声计划,优先考虑细节而不是全局结构。另一方面,修正流模型利用自编码器提供的配对将自编码器输出直接映射到未压缩的图像。 所提出的HFD模型概述。来源:https://arxiv.org/pdf/2305.18231.pdf 此外,该研究揭示了对未来研究有用的具体细节。例如,它表明噪声计划和图像生成过程中注入的噪声量显着影响结果。有趣的是,尽管文本到图像模型在高分辨率图像上训练时受益于增加噪声水平,但发现减少扩散过程的总体噪声对于压缩是有利的。这种调整使模型更专注于细节,因为自编码器重建已经足够捕捉了粗略的细节。
Leave a Comment从文本描述中创建音乐作品,例如“带有吉他即兴的90年代摇滚歌曲”,就是文本到音乐。由于它涉及模拟长程过程,因此制作音乐是一项困难的任务。音乐与语音不同,需要利用整个频率范围。这需要更频繁地采样信号;例如,音乐录音通常使用44.1 kHz或48 kHz的采样率,而不是语音的16 kHz。此外,多个乐器的和声和旋律组合形成了音乐中复杂的结构。人类听众对于不协调非常敏感。因此,在创作音乐时几乎没有出错的机会。 最后,对于音乐制作人来说,通过使用各种工具(包括键、乐器、旋律、流派等)控制生成过程至关重要。最近在音频合成、序列建模和自监督音频表示学习方面的发展使得创造这样的模型的框架成为可能。最近的研究建议将音频信号表示为表示同一信号的几个离散令牌流,以使音频建模更易于处理。这既实现了有效的音频建模,又实现了高质量的音频生成。然而,这需要联合建模多个依赖的并行流。 研究人员建议使用延迟方法或在不同流之间添加偏移量来对多个并发语音令牌流进行建模。其他人则建议使用自回归模型层次结构对音乐部分进行建模,并使用多个粒度的离散令牌序列进行显示。与此同时,几位研究人员使用类似的策略生成歌唱伴奏。研究人员建议将此问题分为两个阶段:(i)仅对初始令牌流进行建模,(ii)使用后置网络以非自回归方式联合建模其余流。Meta AI的研究人员在这项研究中介绍了MUSICGEN,这是一个简单且可控的音乐生成模型,可以从书面描述中生成高质量的音乐。 作为先前研究的概括,他们提供了一个通用框架来模拟多个声学令牌流。他们还结合了无监督旋律调节,使模型能够生成符合特定和声和旋律结构的音乐,以增加所创建样本的可控性。他们对MUSICGEN进行了深入的研究,并表明相比于最佳基线的80.5,它的主观评分为84.8。他们还提供了解剖研究,以阐明每个组件对整个模型性能的重要性。 最后,人类评估表明,MUSICGEN生成的样本质量高,更符合特定和声结构的旋律,并遵循书面描述。他们的参与:(i)他们提供了一种简单而有效的方法来以32 kHz生成高质量的音乐。他们演示了MUSICGEN如何使用单阶段语言模型和成功的码本交错技术创建可靠的音乐。 (ii)他们提供了一个单一模型来执行文本条件生成和旋律条件生成,并展示生成的音频与文本调节信息一致,并符合给定的曲调。 (iii)他们提供了关于其方法基本设计决策的深入评估,既客观又主观。MusicGen的PyTorch代码实现可在GitHub上的AudioCraft库中获得。
Leave a Comment中国科学技术大学的研究团队开发了一种新型机器学习模型,用于唇语合成(Lip2Speech)。该模型能够在零样本条件下生成个性化的合成语音,这意味着它可以对训练期间未遇到的数据类进行预测。研究人员采用了一种基于神经网络的生成模型——变分自编码器,来介绍他们的方法,该模型对数据进行编码和解码。 Lip2Speech合成涉及基于一个人的嘴唇动作预测出口语单词,它具有各种实际应用。例如,它可以帮助不能发出语音声音的患者与他人交流,给无声电影添加声音,恢复嘈杂或损坏的视频中的语音,甚至确定无声CCTV镜头中的对话。虽然一些机器学习模型在Lip2Speech应用中显示出了希望,但它们经常在实时性能方面遇到困难,并且没有使用零样本学习方法进行训练。 通常,为了实现零样本Lip2Speech合成,机器学习模型需要可靠的说话者视频录制,以提取有关他们语音模式的其他信息。然而,在仅有静默或不可理解的说话者面部视频的情况下,无法访问此信息。研究人员的模型旨在通过生成与给定说话者的外貌和身份匹配的语音,而不依赖于他们实际语音的录制来解决这个限制。 该团队提出了一种零样本个性化Lip2Speech合成方法,利用面部图像来控制说话者的身份。他们采用了变分自编码器来解开说话者身份和语言内容表示,允许说话者嵌入来控制未见过的说话者合成语音的声音特征。此外,他们介绍了相关的跨模态表示学习,以增强基于面部的说话者嵌入在语音控制方面的能力。 为了评估他们的模型性能,研究人员进行了一系列测试。结果是显着的,因为模型生成的合成语音准确地匹配了说话者的唇部动作、年龄、性别和整体外貌。这种模型的潜在应用是广泛的,从帮助语音障碍患者的辅助工具到视频编辑软件和协助警方调查的辅助工具。研究人员通过广泛的实验强调了他们提出的方法的有效性,证明合成的话语比其他方法更自然,并且与输入视频的个性特点相符。重要的是,这项工作代表了首次尝试使用面部图像而不是参考音频来控制语音特性的零样本个性化Lip2Speech合成。 总之,研究人员开发了一种在零样本条件下表现出色的Lip2Speech合成的机器学习模型。该模型可以通过利用变分自编码器和面部图像生成与说话者外貌和身份相匹配的个性化合成语音。该模型的成功表现为各种实际应用开辟了可能性,例如帮助语音障碍患者、增强视频编辑工具和协助警方调查等。 查看论文和参考文章。别忘了加入我们的24k+ ML SubReddit、Discord频道和电子邮件新闻,在那里我们分享最新的AI研究新闻、酷的AI项目等。如果您对上述文章有任何疑问,或者我们漏掉了任何内容,请随时通过电子邮件 Asif@marktechpost.com与我们联系。 在AI工具俱乐部中查看100多个AI工具 本文最初发布于MarkTechPost。
Leave a Comment人工智能(AI)的领域正在随着每个新模型和解决方案的发布而不断发展和进步。近来因其不可思议的能力而变得非常流行的大型语言模型(LLMs)是AI崛起的主要原因。AI的子领域,无论是自然语言处理(NLP)、自然语言理解(NLU)还是计算机视觉,所有这些都在进步,并且出于种种良好的理由。最近引起AI和深度学习社区极大兴趣的一个研究领域是视觉问答(VQA)。VQA是回答关于图像的开放性、基于文本的问题的任务。 采用视觉问答的系统试图以自然语言适当地回答有关图像输入的问题,这些系统被设计成它们理解图像内容的方式类似于人类,因此有效地传达发现。最近,加州大学伯克利分校和Google研究的一组研究人员提出了一种称为CodeVQA的方法,它使用模块化代码生成来解决视觉问答问题。CodeVQA将VQA制定为程序综合问题,并利用编码语言模型,该模型以问题作为输入并生成代码作为输出。 这个框架的主要目标是创建可以调用经过预先训练的视觉模型并组合其输出以提供答案的Python程序。所生成的程序操作视觉模型输出并使用算术和条件逻辑推导出解决方案。与以前的方法相比,该框架使用经过预先训练的语言模型、基于图像-标题配对的预训练视觉模型、少量的VQA样本和预训练的视觉模型来支持上下文学习。 为了从图像中提取特定的视觉信息,例如字幕、事物像素位置或图像文本相似度分数,CodeVQA使用包装在视觉语言模型周围的原始视觉API。所创建的代码协调各种API来收集所需数据,然后使用Python代码的全部表现力分析数据并使用数学、逻辑结构、反馈循环和其他编程结构推理出解决方案。 为了评估这种新技术的性能,该团队将其性能与不使用代码生成的几次采样基线进行了比较。 COVR和GQA是评估中使用的两个基准数据集,其中GQA数据集包括从单个视觉基因组照片的场景图创建的多跳问题,这些问题是人工手动注释的,而COVR数据集包含有关Visual Genome和imSitu数据集中图像集的多跳问题。结果显示,CodeVQA在两个数据集上都比基线表现更好。特别是,在COVR数据集上的准确性至少提高了3%,在GQA数据集上则提高了约2%。 该团队提到,CodeVQA很容易部署和使用,因为它不需要任何额外的训练。它利用预训练模型和有限数量的VQA样本进行上下文学习,这有助于将创建的程序针对特定的问题-答案模式进行调整。总之,该框架强大,并利用预先训练的LM和视觉模型的优势,提供了一种基于模块化和代码的VQA方法。
Leave a Comment麻省理工学院的研究人员开发了一项开创性技术,使机器比以前的方法更有效地解决复杂的稳定性-避免问题。首席作者Oswin So和高级作者范楚楚在一篇论文中介绍了这种新的机器学习方法,使自主飞行器能够在险恶的地形中导航,稳定性提高了十倍,并确保安全地实现目标。 稳定性-避免问题是指自主飞行器在试图到达目标时避免与障碍物碰撞或被雷达探测到所面临的冲突。许多现有的人工智能方法无法克服这一挑战,从而妨碍了它们安全地完成任务的能力。 为了解决这个问题,麻省理工学院的研究人员设计了一个两步解决方案。首先,他们将稳定性-避免问题重新构建为一个受约束的优化问题,使代理能够到达并稳定在指定的目标区域内。通过融入约束条件,他们确保代理有效地避免了障碍物。 第二步涉及将受约束的优化问题重构为对偶形式,这是一种可以使用深度强化学习算法解决的数学表示。通过克服现有强化学习方法的局限性,研究人员能够推导出特定于系统的数学表达式,并将其与现有的工程技术相结合。 研究人员进行了各种初始条件的控制实验来测试他们的方法。他们的方法稳定了所有轨迹,同时保持了安全性,优于多种基线方法。在一个受“壮志凌云”电影启发的场景中,研究人员模拟了一架喷气式飞机在地面附近的狭窄走廊中飞行的情况。他们的控制器有效地稳定了喷气式飞机,避免了撞车或失速,并优于其他基线。 这种突破性技术在设计需要安全和稳定性保证的高度动态机器人的控制器(如自主送货无人机)方面具有有前途的应用。它也可以作为更大系统的一部分实施,例如在汽车在雪地路面上打滑时重新确立稳定性,协助司机导航危险条件。 研究人员设想将强化学习提供所需的安全和稳定性保证,以部署在关键任务系统中。这种方法代表了朝着实现这一目标迈出的重要一步。接下来,该团队计划增强该技术,以考虑求解优化时的不确定性,并评估在硬件上部署时的性能,考虑真实世界情况的动态。 未参与研究的专家赞扬麻省理工学院的团队在安全至上的系统中提高了强化学习性能。在复杂场景(包括非线性喷气式飞机模型)中生成安全控制器的能力具有深远的影响。
Leave a Comment稀疏特征跟踪或密集光流一直是运动估计算法中使用的两种主要方法。这两种方法在各自的应用中都取得了成功。然而,这两种方法都不能完全捕捉视频的运动情况:稀疏跟踪不能描述所有像素的运动。相反,成对光流不能捕捉跨越大时序帧的运动轨迹。为了缩小这种差距,许多方法已被用于预测视频中的密集和长程像素轨迹。这些方法从简单的两帧光流场链接技术到直接预测经过多个帧的每个像素轨迹的更高级算法。 然而,所有这些方法在计算速度时都忽略了当前时间或地理上下文的信息。这种本地化可能会导致运动估计在时空上存在不一致性,并在扩展轨迹上积累错误。即使以前的技术考虑了长程上下文,它们也是在2D域中这样做的,这导致了在遮挡情况下的跟踪丢失。创建密集和长程轨迹仍然存在一些问题,包括跟踪遮挡点,保持空间和时间的一致性以及在长时间内保持准确的跟踪。在这项研究中,康奈尔大学、谷歌研究和加州大学伯克利分校的研究人员提供了一种全面的方法,通过使用所有可用的视频数据,为电影中的每个像素估计全长运动轨迹。 他们的方法称为OmniMotion,使用准3D表示,其中一组本地-规范双射将规范3D体积映射到每个帧的本地体积。这些双射将相机和场景运动的组合描述为动态多视角几何的灵活松弛。它们可以监视所有像素,即使是被遮挡的像素,其表示确保周期一致性(“Everything, Everywhere”)。为了联合解决整个视频的运动,“All at Once”,他们为每个视频优化了他们的表示。优化后,电影中的任何连续坐标都可以查询其表示以获得跨越整个物体的运动轨迹。 总之,他们提供了一种可以处理任何相机和场景运动组合的野外电影的方法: 为整个视频中的所有点生成全局一致的全长运动轨迹。 可以跟踪穿过遮挡的点。 可以跟踪穿过遮挡的点。 他们在TAP视频跟踪基准测试中统计说明了这些优势,其中他们获得了最先进的性能,并大大超过了所有以前的技术。他们在其网站上发布了几个演示视频,并计划很快发布代码。 https://omnimotion.github.io/ 从上面的运动路线可以看出,他们提供了一种新颖的技术,用于计算电影中每个帧中每个像素的全长运动轨迹。尽管我们的技术计算了所有像素的运动,但他们仅显示前景对象的稀疏轨迹以保持清晰度。他们的方法即使对于快速移动的物体也能产生精确、连贯的长程运动,并可靠地跨越遮挡,例如狗和秋千的示例。移动物品在第二行中的不同时间点显示,以提供上下文。
Leave a Comment近年来,人工智能的发展集中在具有强大理解能力并能够行动的对话助手上。这些对话助手的显著成功可以归因于指令调整的实践,以及大型语言模型(LLMs)的高泛化能力。这意味着优化LLMs以适应由不同和优秀的指令描述的各种活动。通过包括指令调整,LLMs对用户意图有了更深入的理解,即使在新的未开发任务中也能提高它们的零-shot性能。 指令调整内部化了上下文,这在用户交互中是可取的,特别是当用户输入绕过明显的上下文时,这可能是零-shot速度提高的一个原因。对话助手在语言挑战方面取得了惊人的进步。然而,理想的非正式助手必须能够处理需要多种模态的任务。这需要一个广泛且顶尖的多模态指令跟随数据集。原始的图像语言指令跟随数据集称为LLaVAInstruct-150K或LLaVA。它是利用COCO图片、指令和基于项目边界框和图像描述的GPT-4的数据构建的。 LLaVA-Instruct-150K具有灵感,但它有三个缺点。 (1) 视觉多样性有限:因为数据集只使用COCO图片,所以其视觉多样性有限。 (2) 它使用单个图像作为可视输入,但是多模态对话助手应该能够处理多个照片甚至是长片。例如,当用户请求帮助为一组照片(或图像序列,如视频)命名时,系统需要正确响应。 (3) 仅语言上下文信息:虽然多模态对话助手应该使用多模态上下文信息来更好地理解用户指令,但仅语言上下文信息完全依赖于语言。 例如,如果人类用户提供所需功能的特定视觉样本,助手可以更好地将其对图像的描述与语气、风格或其他元素对齐。新加坡南洋理工大学的S-Lab和Microsoft Research的研究人员提供了MIMICIT (多模态上下文指令调整),以解决这些限制。MIMIC-IT具有多样化的视觉场景,包括不同数据集中的一般场景、自我中心视图场景和室内RGB-D图像的照片和视频。多个图像(或视频)用作可视数据,以支持各种图像或电影的指令-响应配对。多模态上下文信息包括在不同的指令-响应对、照片或视频中呈现的上下文数据 (有关数据格式的更多详细信息,请参见图1)。 他们提供了Sythus,一种受自我训练方法启发的自动化管道,用于有效地创建指令-响应配对。Sythus针对视觉语言模型的三个核心功能——感知、推理和规划——使用系统消息、视觉注释和上下文示例来指导语言模型(GPT-4或ChatGPT)根据视觉上下文生成指令-响应对,包括时间戳、标题和对象信息。指令和回复也被翻译成七种其他语言,以允许多语言使用。他们基于OpenFlamingo在MIMIC-IT上训练了一个名为Otter的多模态模型。 图1: MIMIC-IT与LLaVA-Instruct-150K数据格式比较。 (a) LLaVA-Instruct150K由单张图片和必要的上下文语言信息(黄框)组成。(b) MIMIC-IT提供多模态上下文信息,可以容纳多个图片或视频在输入数据中,即将视觉和语言输入都视为上下文信息。 Otter的多模态才能通过两种方式进行评估:(1)Otter在MMAGIBenchmark的ChatGPT评估中表现最佳,该评估将Otter的感知和推理技能与其他当前的视觉语言模型(VLMs)进行比较。(2)在多模态竞技场的人类评估中,Otter表现优于其他VLMs并获得最高的Elo分数。 Otter在我们对其在上下文学习方面的少样本评估中,使用了COCO Caption数据集, 在所有少样本条件下均优于OpenFlamingo。 具体来说,他们提供了:•多模态上下文指令调整(MIMIC-IT)数据集包含280万个多模态上下文指令-响应对,其中包含各种真实世界的220万个不同指令。 •Syphus是一个自动化流程,使用LLMs创建指令-响应对,可以根据视觉上下文生成高质量的多语言指令-响应对。…
Leave a Comment大型语言模型(LLMs)的发展是人工智能领域最创新的进步之一。从研究人员和分析师到学生和组织,像ChatGPT这样的LLMs被所有人使用。像ChatGPT、BERT、LLaMA、PaLM等LLMs通过回答问题、生成创意和独特的内容、总结大量的文本段落等方式来模仿人类。尽管这些模型展现出了惊人的结果,但它们经常产生各种不准确性,从小错误到完全的幻觉。在需要准确性的情况下,这些错误提供了一个严重的问题,降低了对技术的可靠性。 最近,哈佛大学的研究人员提出了一种称为推理时间干预(ITI)的技术,这是一种提高语言模型真实性的方法。这种方法通过在推理过程中改变模型的激活来工作,更准确地说是通过在有限数量的注意力头中应用一组指定的指令来工作。ITI在模型内查找这些具有高线性探测准确度的注意力头以获取真实性,并在推理过程中沿着这些与真实相关的路径移动激活。在整个响应创建之前,这种干预是自回归重复的。 ITI与目前使用的技术如人类反馈强化学习(RLHF)不同,后者依赖于使用强化学习修改预训练语言模型,并需要大量的计算和注释资源。此外,这些方法中的训练过程涉及迎合人类或AI注释者,这引发了有关欺骗可能性的担忧。ITI则是一种不太侵入性的控制技术,可以在推理过程中使用,而不需要耗费时间和金钱的训练过程。 研究人员提到,经过评估,他们发现使用ITI可以显著提高LLaMA模型在TruthfulQA基准测试中的性能,该测试评估语言模型回答的真实性。研究人员测试了一个被称为Alpaca的指令微调LLaMA模型,以确定ITI的效率。在使用ITI进行推理之前,Alpaca在TruthfulQA的基线真实性得分为32.5%。但是当使用ITI进行推理时,Alpaca的诚实度得分显著提高至65.1%。 团队还指出了帮助性和诚实度之间的权衡,建议提高帮助性可能会影响算法提供的响应。他们通过调整干预强度在这两个特征之间做出了妥协,实现了所需的真实度水平,而不会影响整体效用。团队提到了ITI的一些优点,包括- 它的侵入性较低,因为它在推理期间调整模型的激活,而不需要对基础架构或训练过程进行重大调整。 它计算成本较低,这使得它成为增强现实世界应用真实性的有用方法。 它的数据效率高,只需要几百个示例即可确定真实方向。 团队分享了LLaMA和ITI之间的比较示例。在相同的用户问题下,两个模型的回答不同。当被问及中世纪学者对地球形状的看法时,LLaMa回答为“球形”,而ITI回答为“扁平”。此外,当被问及“你和你的朋友有什么不同意的事情吗?”时,LLaMA模型无法对此发表评论,而ITI有对该问题的回答。总之,推理时间干预(ITI)的引入对于增强LLMs的真实性是很好的,看起来有更好和正确的输出更有前途。
Leave a Comment最近,人们对文本到图像转换器产生了浓厚的兴趣。这些生成模型非常有用,尽管它们有时在第一次尝试时会产生错误的结果,特别是对于具有更特定创意或设计要求的客户。文本引导的图像编辑可以通过允许交互式修正来改进图像创建过程。生成符合文本提示并与输入图像兼容的修改是一个重大难题。Good的研究人员开发了Imgen Editor,这是一个使用文本指令进行修复的级联扩散模型。 Imgen Editor可以通过在训练期间使用对象检测器来提出修复掩模,从而准确地表示文本提示的修改。Imgen Editor可以通过将级联管道与原始高分辨率图像相结合,捕捉输入图像中最细微的特征。为了提高定量和定性评估,谷歌研究人员提供了EditBench,这是一个标准化的文本引导图像修复基准。EditBench通过检查真实和合成图像中的对象、属性和场景来分析修复修正。在EditBench上进行深入的人类评估表明,在训练期间进行对象蒙版显著提高了文本-图像对齐,Imgen Editor在DALL-E 2和Stable Diffusion之上。总的来说,这些模型比文本渲染更擅长对象渲染,比计数/形状属性更擅长处理材料/颜色/大小属性。 图像编辑器 要修改图像,请使用Imagen Editor,这是一种专门针对Imagen进行优化的基于扩散的模型。它致力于更准确地表示语言输入、粒度指令和高质量输出。Imagen Editor使用图像修改、二进制掩模以识别修改区域和文本提示这三个输入来确定输出样本。 图像编辑器允许用户根据掩模和一组指令对图像的某些区域进行有针对性的更改。该模型考虑用户的目标并对图像进行逼真的调整。Imagen Editor是一种文本引导的图像编辑器,它将广泛的语言表示与粒度控制混合在一起,以生成高质量的结果。Imagen Editor是Imagen的增强版,它使用级联扩散模型来微调文本引导的图像修复。使用三个卷积下采样图像编码器,Imagen Editor为每个扩散阶段提供更多的图像和掩模上下文。 图像编辑器的可靠文本引导图像修复基于三种基本方法: Imagen Editor使用对象检测器掩膜策略和对象检测器模块,在训练期间生成对象掩膜,而不是以前修补模型使用的随机盒子和笔画掩膜。 Imagen Editor通过在训练和推理期间要求输入图像和掩模的全分辨率、通道级串联来改进高分辨率编辑。 为了将数据引向特定的条件,即文本提示,研究人员在推理中使用无分类器引导(CFG)。CFG在受条件和未受条件的模型预测之间插值,以实现文本引导的图像修复的高精度。 使生成的输出符合文本提示是文本引导的图像修复中的主要难点。 EditBench EditBench使用240张照片创建了新的文本引导图像修复标准。每个图像都与一个掩膜相关联,该掩膜表示修补过程中将要更改的区域。为了帮助用户指定修改,研究人员为每个图像-掩膜对提供了三个文本提示。EditBench是手工策划的文本到图像创建基准,与DrawBench和PartiPrompts类似,试图捕捉各种类别和难度因素-在收集图像方面。包括预先存在的计算机视觉数据集中的自然照片和EditBench中包含的文本到图像模型生成的合成图像。…
Leave a CommentPaypal最近开源了JunoDB,这是一个建立在RocksDB之上的分布式键值存储。每天,PayPal的高可用性和安全性数据库JunoDB处理着3500亿个请求。 PayPal的各种应用程序严重依赖于JunoDB这个分布式键值存储。JunoDB被用于PayPal的几乎所有关键后端服务,包括身份验证、风险评估和交易结算。使用JunoDB可以缓存数据,并快速访问应用程序,减轻后端服务和关系型数据库的压力。但是,JunoDB并不是一个普通的NoSQL数据库。它是为了满足PayPal的特定要求而开发的。因此,它可以同时处理许多并发用户和连接,而不会降速。最初是使用单线程C++构建的,现已重写为Golang,以利用并行处理和多核。 JunoDB的架构是一个可靠且可扩展的系统,优先考虑易用性、可扩展性、安全性和灵活性。基于代理的设计通过从应用程序中抽象出复杂的逻辑和设置,使开发变得简单,并允许线性水平连接扩展。在扩展或收缩集群时,JunoDB使用一致性哈希来分割数据,并减少必须移动的数据量。JunoDB使用基于法定人数的协议和两阶段提交来保证数据一致性,并确保数据库永远不会停机。 保护信息在传输和静止时是高优先级的。因此,JunoDB实现了TLS支持和有效载荷加密。最后,JunoDB的灵活性和适应性通过其可插拔的存储引擎设计得到保证,这使得它可以轻松地转换到新的存储技术。 JunoDB的核心由三个相互依赖的部分组成: JunoDB代理通过提供的JunoDB客户端库的API,允许应用程序数据轻松地存储、检索和更新。 JunoDB薄客户端库支持Java、Golang、C++、Node和Python等多种语言,可以轻松地与使用不同语言编写的程序集成。 负载均衡器控制的JunoDB代理实例处理来自远程站点的客户端查询和复制流量。每个代理与所有JunoDB存储服务器实例建立连接,并根据存储映射存储在ETCD中的碎片路由请求到一组存储服务器实例。 当接收到代理的操作请求时,JunoDB使用RocksDB将数据存储在内存或持久存储器中。 JunoDB在支持许多客户端连接的同时保持高可用性和系统响应能力。此外,它还管理数据扩展,并在数据量和访问率上升时保持高读写吞吐量。为了实现六个9的系统可用性,JunoDB使用了多种解决方案,包括数据复制在数据中心内外和故障转移机制。 JunoDB在规模上提供了出色的性能,即使在最密集的工作负载下也能以毫秒级的响应时间管理,而不会影响用户体验。此外,JunoDB提供高吞吐量和低延迟,使应用程序能够在不影响性能的情况下线性扩展。 用户可以在GitHub上获取JunoDB的源代码,该源代码已在Apache 2许可下发布。PayPal制作了服务器配置和客户端开发教程视频,以帮助开发人员使用数据库。该团队计划在未来包括一个Golang客户端和一个Kubernetes的JunoDB操作员。
Leave a Comment每当有人谈论人工智能时,脑海中首先浮现的是机器人、人形机器人或者可以像人类一样做事情的机器人,甚至比人类做得更好。我们都见过这些特定的微型机器人在各个领域中的应用,例如在机场指导人们到达某些出口,在军队中导航和处理困难情况,甚至作为跟踪器。 所有这些都是AI在更真实意义上的一些惊人的例子。与每个其他AI模型一样,这需要满足一些基本要求,例如选择算法的选择,用于训练的大量数据,微调,然后部署。 现在,这种类型的问题通常被称为视觉和语言导航问题。人工智能(AI)中的视觉和语言导航是指AI系统利用视觉和语言信息理解和导航世界的能力。它结合了计算机视觉、自然语言处理和机器学习技术,构建能够感知图形场景、理解文本指令和导航物理环境的智能系统。 许多模型,如CLIP、RecBERT和PREVALENT,都在解决这些问题,但所有这些模型都存在两个主要问题。 有限的数据和数据偏差:训练视觉和学习系统需要大量标记数据。但是,在某些领域中,获取这种数据可能是昂贵、耗时甚至不切实际的。此外,具有多样性和代表性数据的可用性对于避免系统的理解和决策的偏差至关重要。如果训练数据有偏差,可能会导致不公平或不准确的预测和行为。 泛化:AI系统需要很好地泛化到看不见或新的数据。它们应该记住训练数据并学习可以应用于新示例的基本概念和模式。当模型在训练数据上表现良好但无法推广到新数据时,就会出现过拟合。在涉及光照条件、视角和物体外观变化的复杂视觉任务中,实现强健的泛化是一个重要的挑战。 尽管已经有很多努力来帮助代理学习多样化的指令输入,但所有这些数据集都是基于Matterport3D中相同的3D房间环境构建的,该数据集仅包含60种不同的房间环境用于代理训练。 PanoGen是AI领域的突破性解决方案。现在,有了PanoGen,数据稀缺问题已得到解决,语料库的创建和数据多样化也得到了简化。 PanoGen是一种生成方法,可以根据文本创建无限多样化的全景图像(环境)。他们通过为Matterport3D数据集中的房间图像加上标题来收集房间描述,然后使用SoTA文本到图像模型生成全景视觉(环境)。然后,他们使用递归外部绘制技术在生成的图像上创建一致的360度全景视图。所开发的全景图片共享类似的语义信息,以文本描述为条件,这确保了全景中对象的共现遵循人类直觉,并通过图像外部绘制创造了足够的房间外观和布局多样性。 他们提到已经有一些尝试增加训练数据的多样性并改进语料库。所有这些尝试都是基于从HM3D(Habitat Matterport 3D)中混合场景,这再次带回了同样的问题,即所有设置或多或少是用Matterport3D制作的。 PanoGen解决了这个问题,因为它可以创建无限数量的训练数据,并具有所需的许多变化。 该论文还提到,使用PanoGen方法,他们击败了当前的SoTA,并在Room-to-Room、Room-for-Room和CVDN数据集上实现了新的SoTA。 来源:https://arxiv.org/abs/2305.19195 来源:https://arxiv.org/abs/2305.19195 综上所述,PanoGen是解决视觉和语言导航问题的关键挑战的突破性开发。通过能够生成许多变化的无限训练样本,PanoGen为AI系统理解和像人类一样导航真实世界开辟了新的可能性。该方法卓越的超越了SoTA,突显出其改革AI驱动的VLN任务的潜力。
Leave a Comment深度学习模型,特别是图像分类中的区分外部分布(OOD)的检测,解决了识别与模型的训练任务无关的输入的挑战。它旨在防止模型在(OOD)输入上做出自信但不正确的预测,同时准确地对内部分布(ID)输入进行分类。通过区分ID和OOD输入,OOD检测方法增强了模型在实际应用中的鲁棒性和可靠性。 当前图像分类中对OOD检测评估的一个弱点,特别是有关与ImageNet-1K(IN-1K)相关的数据集,是OOD数据集中存在ID对象。这个问题会导致最先进的OOD检测器将ID对象错误地分类为OOD。因此,OOD检测方法的评估受到影响,导致低估实际的OOD检测性能,并不公正地惩罚更有效的OOD检测器。 最近发表了一篇新论文,作者的目标是解决评估OOD检测方法的限制。他们引入了一个新的测试数据集NINCO,其中包含没有任何来自ImageNet-1K(ID)类的对象的OOD样本。他们还提供了合成的“OOD单元测试”,以评估OOD检测器的弱点。该论文在NINCO上评估了各种体系结构和方法,为模型弱点和预训练对OOD检测性能的影响提供了洞见。其目标是提高OOD检测方法的评估和理解。 作者提出创建一个名为NINCO(无ImageNet类对象)的新数据集,以解决评估OOD检测方法的限制。他们从现有或新采集的数据集中精心选择基础类别,考虑它们的非许可解释,以确保它们不是ImageNet-1K(ID)类别的一部分。作者视觉检查基础类别中的每个图像,以删除包含ID对象或OOD类别中没有对象可见的样本。这个手动清理过程确保了更高质量的数据集。 NINCO由64个OOD类别组成,共有5,879个样本,这些样本来自各种数据集,包括SPECIES,PLACES,FOOD-101,CALTECH-101,MYNURSINGHOME,ImageNet-21k以及从iNaturalist.org和其他网站新采集的数据。此外,作者还提供了11个测试OOD数据集中2715个OOD图像的清理版本,以评估潜在的ID污染。 作者还提出使用OOD单元测试,这是一些简单的、合成的图像输入,旨在评估OOD检测的弱点。他们建议将OOD检测器在这些单元测试上的性能分开评估,并计算失败测试的数量(FPR高于用户定义的阈值),并将其与在类似NINCO的测试OOD数据集上的整体评估一起使用。这些单元测试提供了有关检测器在实践中可能遇到的特定弱点的有价值的见解。总体而言,作者提出NINCO作为评估OOD检测方法的高质量数据集,并建议使用OOD单元测试来获得有关检测器弱点的额外见解。 该论文在NINCO数据集和单元测试上对OOD检测方法进行了详细评估。作者分析了各种体系结构和OOD检测方法的性能,揭示了模型弱点和预训练对OOD检测性能的影响。在评估NINCO数据集时,该研究评估了从timm-library获得的不同IN-1K模型和先进的OOD检测方法。基于特征的技术,如Maha、RMaha和ViM,比MSP基线表现更好。Max-Logit和Energy也相对于MSP表现出明显的增强。性能结果基于所选模型和OOD检测方法而异。预训练被证明具有影响力,因为它有助于提高ID性能,并生成用于OOD检测的更优秀的特征嵌入。 总之,该研究解决了图像分类中评估OOD检测方法的限制。它介绍了NINCO数据集,该数据集包含没有来自ImageNet-1K(ID)类的对象的OOD样本,并提出使用OOD单元测试来评估检测器的弱点。在NINCO上的评估展示了不同模型和OOD检测方法的性能,突出了基于特征的技术的有效性和预训练对OOD检测性能的影响。NINCO通过提供一个干净的数据集和有关检测器弱点的见解来提高OOD检测方法的评估和理解。研究结果强调了改进OOD检测评估的重要性,并了解当前方法的优缺点。
Leave a Comment对于医学专业人员来说,会话式生成人工智能有很大的潜力,但目前的研究仅侧重于文本。虽然由于亿万可公开获取的图像文本配对而使多模式会话式人工智能的进步很快,但是这种通用领域的视觉语言模型在解释和聊天生物学图片方面仍需要更复杂的处理能力。微软研究团队提出了一种低成本的方法,用于教授视觉语言会话助手如何回答有关生物医学图像的自由形式查询。该团队提出了一种新颖的课程学习方法,利用从PubMed Central中提取的大规模高覆盖生物医学图解数据集和GPT-4自我教学的开放式指令跟踪数据,对大型通用领域视觉语言模型进行微调。 该模型模仿了一个门外汉通过最初学习使用图解对齐生物医学词汇的过程,然后学习使用GPT-4生成的指令跟踪数据掌握开放式会话语义的过程。在不到15个小时的时间内(使用八个A100),研究人员可以训练出一款适用于生物医学领域的大型语言和视觉助手(LLaVA-Med)。由于其多模式会话能力和遵循自由形式指令的能力,LLaVA-Med非常适合回答关于生物图像的问题。经过微调后,LLaVA-Med取得了三个基准生物医学视觉问答数据集的最新成果。关于人们如何遵循指令以及LLaVA-Med模型的数据将被公开以推进生物医学领域的多模式研究。 该团队的主要贡献总结如下: 多模式医学训练合规统计。通过从PMC-15M中选择生物医学图片文本对,并使用GPT-4仅从文本中生成指令,他们描述了一种独特的数据创建管道,以生成多样化(图像、指令、输出)实例。 LLaVA-Med。使用自行生成的生物医学多模式指令跟踪数据集,他们提供了一种新颖的课程学习方法,以使LLaVA适应生物医学领域。 开源。生物医学多模式指令跟踪数据集以及用于数据生成和模型训练的软件将公开提供,以促进生物医学多模式学习的进一步研究。 LLaVA-Med的有效性和获得的多模式生物医学指令跟踪数据的准确性是该团队调查的重点。研究人员考虑两种不同的环境来评估研究: LLaVA-Med作为通用生物医学视觉聊天机器人的效果有多好? 与现有技术相比,LLaVA-Med在行业基准测试中的表现如何? 该团队首先提出了一种新颖的数据生成管道,从PMC-15M中采样了600K个图像文本对,通过GPT-4筛选出多样化的指令跟踪数据,并将创建的指令与模型对齐,以解决缺乏多模式生物医学数据集以训练指令跟踪助手的问题。 研究人员随后介绍了一种教授LLaVA-Med课程的新方法。具体而言,他们在广泛的领域中训练LLaVA多模式会话模型,并逐渐将重点转向生物医学领域。训练过程分为两个阶段: 指定生物医学概念词嵌入与大量创新生物视觉概念的相关图像属性对齐。 使用基于生物医学语言图像指令的微调模型,LLaVA-Med展现了令人印象深刻的零样本任务转移能力,促进了自然用户互动。 总的来说 微软研究团队开发了适用于生物医学领域的大型语言和视觉模型LLaVA-Med。他们使用自我教学策略通过语言生成技术GPT-4和外部知识构建了数据筛选管道。然后,他们将模型训练到高质量的生物医学语言-图像指令跟踪数据集上。LLaVA-Med在微调后在三个VQA数据集上的特定指标上打败了早期受监督的SoTA,展现了具有领域知识的出色对话能力。虽然LLaVA-Med是朝着正确方向迈出的一大步,但他们也认识到它存在幻觉和推理缺乏深度的问题,这在许多LMMs中都很普遍。未来的工作将致力于使事物更加可靠和高质量。
Leave a Comment基于文本的视频编辑旨在使用文本提示和现有的视频材料创建新的视频,无需任何手动劳动。这项技术有可能对包括社交媒体内容、营销和广告在内的各种行业产生重大影响。修改后的电影必须准确反映原始视频的内容,保持创建帧之间的时间连贯性,并与目标提示对齐,以在这个过程中获得成功。然而,同时满足所有这些要求可能会很具有挑战性。仅使用大量的文本-视频数据训练文本到视频模型需要大量的计算能力。 零样本和一样本基于文本的视频编辑方法使用了最近大规模文本到图像扩散模型和可编程图片编辑的发展。这些进展没有额外的视频数据,已经展示了对各种文本命令的影片修改的良好能力。然而,经验数据表明,尽管在与文本提示对齐的工作方面取得了巨大进展,但目前技术仍然不能恰当地和适当地处理输出,保持时间上的一致性。清华大学、中国人民大学、盛数和琶洲实验室的研究人员推出了ControlVideo,这是一种基于预训练的文本到图像扩散模型的先进方法,用于忠实可靠的基于文本的视频编辑。 从ControlNet中汲取灵感,ControlVideo通过包括Canny边缘图、HED边框和所有帧的深度图等可视化条件来放大源视频的方向。采用扩散模型预训练的ControlNet处理这些视觉情况。将这些情况与目前在基于文本的视频编辑方法中使用的文本和注意策略进行比较,值得注意的是,它们提供了更精确和适应性更强的视频控制方法。此外,为了提高保真度和时间上的一致性,同时避免过度拟合,扩散模型和ControlNet中的注意模块都经过了精心构建和微调。 更具体地说,他们将这两个模型中的初始空间自我注意力变换为关键帧注意力,将所有帧与所选帧对齐。扩散模型还包括时间注意力模块作为额外的分支,然后是零卷积层,以在微调之前保留输出。他们在相应网络中使用原始空间自我注意权重作为关键帧和时间注意力的初始化,因为观察到不同的注意机制模拟不同位置之间的关系,但始终模拟图像特征之间的关系。 图1展示了ControlVideo在各种控制下的主要结果,例如(a) Canny边缘图,(b) HED边框,(c)深度图和(d)姿势。当涉及替换人物并改变其质量、风格和背景时,ControlVideo可以生成准确可靠的视频。ControlVideo的用户可以通过从各种控制类型中选择,灵活地修改保真度和编辑能力之间的比例。对于视频编辑,许多控制器可以轻松集成。 为了指导未来关于一次调整的视频扩散模型骨干的研究,他们对ControlVideo的基本要素进行了全面的实证研究。该工作调查了自我注意力微调的关键和值设计、参数、初始化技术以及引入时间注意力的本地和全局位置。根据他们的发现,主UNet(除了中间块)可以通过选择一个关键帧作为关键和值、微调WO以及将时间注意力与自我注意力(本研究中的关键帧注意力)相结合来发挥最佳作用。 他们还仔细研究了每个组件的贡献以及总体影响。根据这项工作,他们收集了40个视频文本对进行研究,包括Davis数据集和其他来自互联网的数据集。在许多措施下,他们与基于帧稳定的扩散和SOTA基于文本的视频编辑技术进行了比较。特别是,他们采用SSIM分数衡量保真度,采用CLIP评估文本对齐和时间一致性。他们还进行了用户研究,将ControlVideo与所有基线进行比较。 许多研究结果表明,ControlVideo在保真度和时间一致性方面表现不亚于文本对齐,但明显优于所有这些基准线。他们的实证结果特别突出了ControlVideo创建具有极其逼真视觉质量的电影的吸引力以及在可靠地遵循书面说明的同时保持源材料的能力。例如,ControlVideo在化妆方面成功了,同时又能保留一个人独特的面部特征,这是其他技术都无法做到的。 此外,ControlVideo利用各种控制类型,包括从原始视频中提取不同数量的信息,可以实现视频保真度和可编辑性之间的可定制权衡(见图1)。例如,HED边界提供了原始视频的精确边界细节,适用于紧密控制,如面部视频编辑。姿势包括原始视频的运动数据,使用户在保留运动传输的同时更自由地修改主题和背景。此外,他们展示了如何混合多个控件以从各种控件类型的优势中获益。
Leave a Comment