Press "Enter" to skip to content

1368 search results for "Content OS"

遇见VideoSwap:一种通过交互式语义点对应来自定义视频主题交换的人工智能框架

最近,视频编辑领域取得了重要的进展,其中以使用人工智能(AI)进行编辑的技术为主导。新的众多技术涌现出来,其中以基于扩散的视频编辑为特别有前景的领域。它利用预训练的文本到图像/视频扩散模型来实现风格改变、背景替换等任务。然而,视频编辑最具挑战性的部分是将来自源视频的运动转移到编辑后的视频中,并在整个过程中确保时间上的一致性。 大多数视频编辑工具注重通过确保时间一致性和运动对齐来保留视频的结构。然而,在处理视频中形状的改变时,该过程变得无效。为了弥补这一差距,本文的作者(新加坡国立大学Show Lab和GenAI,Meta的研究人员)介绍了VideoSwap框架,该框架使用语义点对应来对齐主体的运动轨迹并改变其形状,而不是密集的点对应。 使用密集对应可以更好地保持时间上的一致性,但它限制了在编辑后的视频中主体形状的改变。虽然使用语义点对应是一种灵活的方法,但它在不同的开放世界设置中会有所变化,这使得难以训练一个通用条件模型。研究人员尝试仅使用有限数量的源视频帧来学习语义点控制。他们发现优化源视频帧上的点可以对齐主体的运动轨迹并改变主体的形状。此外,优化的语义点也可以在语义和低层次的更改之间进行传递。这些观察结果为使用语义点对应在视频编辑中提供了依据。 研究人员通过以下方式设计了该框架。他们将运动层集成到图像扩散模型中,以确保时间上的一致性。他们还在源视频中识别语义点并利用它们来传输运动轨迹。该方法仅关注高级语义对齐,从而防止过度学习低级细节,从而增强语义点对齐。此外,VideoSwap还具有用户点互动功能,例如删除或拖动多个语义点对应。 研究人员使用潜在扩散模型实施了该框架,并采用AnimateDiff中的运动层作为基础模型。他们发现,与先前的视频编辑方法相比,VideoSwap在同时对齐源运动轨迹、保留目标概念身份的基础上实现了显著的形状改变。研究人员还利用人工评估者验证了他们的结果,结果明确表明VideoSwap在主体身份、运动对齐和时间一致性等指标上优于其他比较方法。 总之,VideoSwap是一个多功能框架,可用于视频编辑,即使涉及复杂的形状也可以。它在过程中限制了人工干预,并使用语义点对应来实现更好的视频主体替换。该方法还允许在同时改变形状的同时将运动轨迹与源对象对齐,并在多个指标上优于先前的方法,展示了定制视频主体替换的最新成果。

Leave a Comment

迎接 PGXMAN:PostgreSQL 扩展管理器

你能够将它们拖放到项目管理工作流中,而不是手动更新和独立管理每个Postgres扩展吗?那该多么棒啊!幸运的是,随着PGXMAN的推出,这个愿望成真了。 想象一下,只需点击几下或输入几条命令,就可以安装、更新和卸载Postgres扩展。搜索新版本、管理依赖关系和手动更新都成为了过去的事情。有了Pgxman负责这一切,你可以专注于创建令人难以置信的应用。 增强Postgres数据库最有效的方法之一就是使用扩展。而处理扩展可能是具有挑战性的。感谢PGXMAN,当安装和管理Postgres扩展时,Pgxman就是救星。 什么是PGXMAN? Pgxman是一个Postgres扩展程序包管理器。使用它可以轻松安装和更新扩展,并管理扩展之间的依赖关系。对于希望在应用程序中包含Postgres扩展的开发人员来说,PGXMAN是一个宝贵的工具。 PGXMAN:它是如何工作的? Pgxman使用软件包存储库来存储扩展。每个扩展的详细信息,包括名称、版本和依赖关系,都存储在软件包存储库中。通过这些信息,Pgxman可以安装、更新和删除扩展。 使用Pgxman的优点 使用PGXMAN有许多优点,其中包括: PGXMAN简化了查找、安装和更新扩展的过程,易于使用。 PGXMAN可以自动处理扩展之间的依赖关系。 使用PGXMAN可轻松保持扩展的最新状态。 PGXMAN社区强大而支持性良好,有许多用户和开发人员为该项目做出了贡献。 开始使用Pgxman 下面的命令将安装pgxman并帮助你入门: pip install pgxman 以下命令将在安装pgxman后帮助你使用pgxman添加扩展: pgxman install <extension-name> 通过以下命令,您还可以使用pgxman更新扩展: pgxman update…

Leave a Comment

Microsoft发布了Orca 2:通过定制化训练策略在更小的语言模型中开创先进推理技术

LLMs(大型语言模型)是在大量文本数据上进行训练的,以便理解和生成类似于人类语言的模型。如GPT-3、GPT-4和PaLM-2等模型就是其中的几个例子。这些模型执行复杂的语言任务,包括文本生成、对话交互和问题回答。它们在各个领域的应用中,提升了聊天机器人、编码、网络搜索、客户支持和内容制作等用户体验。 然而,随着AI社区深入研究更小规模模型的广阔领域,微软推出了名为Orca 2的下一个版本,旨在增强紧凑型AI模型的能力。通过集成详细解释和追踪,Orca 1在BigBench Hard和AGIEval等具有挑战性的基准测试中超越传统的指导训练模型。Orca 2进一步深入研究了增强训练信号的潜力,以提高较小语言模型的推理能力。 模仿学习一直是改善小型语言模型的流行方法。尽管这些较小的模型可以以与教师类似的方式生成内容,但它们通常需要在推理和理解能力上迎头赶上。尽管模仿学习具有一些好处,但也有缺点,可能限制较小模型发挥其全部潜力,并阻止它们使用最佳的解决方案来解决特定问题和模型能力。它们通常需要帮助匹配其较大模型对推理和理解能力的匹配,从而限制了它们的潜力。 与简单模仿不同,Orca以各种推理技巧指导模型。这些技巧包括逐步处理、回忆然后生成、回忆-推理-生成和直接答案。目标是指导模型获取辨别最有效解决策略的能力,以适应每个特定任务的细微差别。 Orca 2的零次推理能力凸显了改进更小型神经网络的可能性。微软继续相信,像Orca 2这样的专门训练方法可能揭示新的有用应用。这种方法旨在提高这些神经网络部署的效果。 最重要的是,Orca 2在训练阶段减少了初始线索所引发的特定行为。通过创新的Prompt Erasure技术,Orca 2转变为慎重的推理者。与盲目模仿不同,这种方法使用较大模型作为行为来源,选择最佳行为来解决给定任务。 研究人员对Orca 2进行了全面的基准测试。他们表明,它在与语言理解、常识推理、多步数学问题、阅读理解、摘要等相关的其他等价模型上表现更好。例如,在零次推理任务上,Orca 2-13B的准确率比13B模型高出25%以上,与70B模型持平。 Orca 2在小型语言模型的演进中迈出了重要的一步。它离开了传统的模仿学习,注重教授多样的推理技巧,展示了发挥紧凑型AI模型潜力的新方法。

Leave a Comment

Microsoft的Azure AI模型目录以突破性的人工智能模型扩展

“`html Microsoft已经发布了Azure AI模型目录的重大扩展,其中包括一系列基础和生成型AI模型。这一举措标志着人工智能领域的重大进步,将不同的创新技术汇集在一起。 AI目录的多样增加 Azure AI模型目录现在包括40个新模型,引入了4种新模式,包括文本到图像和图像嵌入功能。主要增加的模型有: 稳定扩散模型:由Stability AI和CompVis开发,这些模型在文本到图像和图像修复任务中表现出色,为创意内容生成提供了稳健且一致的输出。 TII的Falcon模型:Falcon模型具有70亿和400亿参数,针对推断进行了优化,在性能上超过了许多开源模型。 Meta的Code Llama:一系列用于辅助编码任务的生成型文本模型,参数从70亿到340亿不等。 NVIDIA Nemotron:这款来自NVIDIA的80亿参数模型提供了各种功能,包括聊天和问答,与NVIDIA NeMo框架兼容。 Meta的SAM(Segment Anything Model):一种能够从简单的输入提示中创建高质量对象掩码的图像分割工具。 模型即服务(MaaS) 在战略上,微软还引入了模型即服务(MaaS)的概念。该服务将使专业开发人员能够将来自Meta的Llama 2、Cohere的Command、G42的Jais以及Mistral的高级模型作为API端点集成到其应用程序中。这种集成过程简化了开发人员资源供应和托管管理的复杂性。 创新型模型亮点 Jais:G42开发的具有130亿参数的模型,经过了包含1160亿阿拉伯语标记的数据集的训练。Jais是阿拉伯世界在人工智能方面的重要进步。 Mistral:拥有73亿参数的大型语言模型,由于具有分组查询注意力和滑动窗口注意力特征,因此其推断速度更快且响应序列更长。 Phi模型:包括Phi-1-5和Phi-2,这些变压器展示了改进的推理能力和安全措施,适用于从写作到逻辑推理的各个领域的应用。 面向未来的创新…

Leave a Comment

苹果研究人员推出了Matryoshka扩散模型(MDM):一种用于高分辨率图像和视频合成的端到端人工智能框架

在近期,大型语言模型展示了惊人的能力。其中扩散模型尤其广泛用于多种生成应用,包括3D建模、文本生成、图像和视频生成。尽管这些模型适用于各种任务,但在处理高分辨率数据时会遇到很大的困难。由于每个步骤都需要重新对整个高分辨率输入进行编码,因此将它们扩展到高分辨率需要大量的计算资源和内存。 为了克服这些问题,研究人员经常使用具有注意力机制的深度架构来进行处理,尽管这样会增加计算和内存需求,并且使优化变得复杂。研究人员一直在努力开发有效的网络设计来处理高分辨率照片。然而,当前的方法在输出质量上不及DALL-E 2和IMAGEN等标准技术,并且在512×512分辨率之上尚未展示出竞争力。 这些广泛使用的技术通过合并许多独立训练的超分辨扩散模型与低分辨率模型来减少计算量。相反,潜在扩散方法(LDMs)依赖于经过单独训练的高分辨率自编码器,只训练低分辨率扩散模型。这两种策略都需要使用多阶段的流程和精细的超参数优化。 在最近的研究中,苹果的研究团队提出了万花筒扩散模型(MDM),这是一系列为端到端高分辨率图像和视频合成而设计的扩散模型。MDM的思想是将低分辨率扩散过程作为高分辨率生成的关键组成部分。该方法受到了生成对抗网络(GANs)多尺度学习的启发,团队通过使用嵌套的 UNet 架构,在多个分辨率上进行联合扩散过程。 该方法的一些主要组成部分如下所示。 多分辨率扩散过程:MDM使用嵌套的 UNet 架构,同时对多个分辨率的输入进行去噪处理,从而能够同时处理和生成具有不同细节级别的图像。 嵌套 UNet 架构:嵌套的 UNet 架构将较小尺度的输入特征和参数嵌套在较大尺度的输入特征和参数中。通过这种嵌套,可以有效地在各个尺度上共享信息,提高模型在捕捉细节特征时的能力,同时保持计算效率。 渐进式训练计划:MDM提出了一个逐渐提高分辨率的训练计划,从较低分辨率开始。使用这种训练方法,可以增强优化过程,并使模型更好地学习如何生成高分辨率内容。 团队通过一系列基准测试来分享这种方法的性能和效果,例如文本到视频应用、高分辨率文本到图像生成和条件图片生成。MDM已经证明可以训练一个像素级模型,分辨率高达1024×1024像素。考虑到这一成就是使用相对较小的数据集(CC12M)实现的,该数据集只包含1200万张照片,这是非常令人瞩目的。MDM展示出鲁棒的零样本泛化能力,使其能够为其未经专门训练的分辨率生成高质量信息。总而言之,万花筒扩散模型(MDM)代表了高分辨率图像和视频合成领域的重大进步。

Leave a Comment

了解BOSS:一个增强学习(Reinforcement Learning,简称RL)框架,通过LLM指导训练智能体在新环境中解决新任务

介绍BOSS(自己打造技能):一种创新方法,利用大型语言模型,自主构建多功能技能库,以应对复杂任务,减少指导的需求。与传统的无监督技能获取技术和简单的引导方法相比,BOSS在执行陌生任务时表现更好,具备在新环境中运行的能力。这一创新标志着自主技能获取和应用的重大飞跃。 强化学习旨在优化马尔可夫决策过程中的策略,以最大化预期回报-过去的强化学习研究为复杂任务预训练可重用技能。无监督强化学习主要关注好奇心、可控性和多样性,学习技能时无需人类输入。语言被用于技能参数化和开环规划。BOSS通过大型语言模型扩展技能库,指导探索并奖励完成技能链,提高了长期任务执行的成功率。 传统的机器人学习在很大程度上依赖于监督,而人类在独立学习复杂任务方面表现出色。研究人员将BOSS作为一个框架引入,以最小人为干预的方式自主获取多样、长期的技能。通过技能引导和大型语言模型(LLMs)的指导,BOSS逐步构建和组合技能,以处理复杂任务。无监督的环境交互增强了其策略对于在新环境中解决挑战性任务的鲁棒性。 BOSS引入了一个两阶段的框架。在第一阶段,它使用无监督的强化学习目标获取基础技能集。第二阶段,技能引导,利用LLMs指导技能链接和基于技能完成的奖励。这种方法允许代理从基本技能构建复杂行为。在家庭环境中的实验表明,LLM引导的引导方式在执行陌生的长程任务和新的设置中优于天真的引导和之前的无监督方法。 实验结果证实,LLM引导的BOSS在解决新颖环境中的复杂家庭任务方面表现优异,超过了基于LLM的规划和无监督探索方法。结果呈现了在ALFRED评估中不同长度任务的标准化返回和标准化成功率的四分位数平均值和标准偏差。LLM引导引导的训练代理优于天真引导和之前的无监督方法。BOSS能够从基本技能中自主获取多样、复杂的行为,展示了它在无需专家的机器人技能获取方面的潜力。 在无需专家指导的情况下,LLM引导的BOSS框架在自主解决复杂任务方面表现出色。在执行陌生功能时,LLM引导的训练代理优于天真引导和之前的无监督方法。现实中的家庭实验证实了BOSS在从基本技能中获取多样、复杂行为方面的有效性,强调了其在自主机器人技能获取方面的潜力。BOSS还显示出将强化学习与自然语言理解结合的潜力,利用预训练的语言模型进行指导学习。 未来的研究方向可能包括: 研究无需重置的自主技能学习。 使用BOSS的技能链接方法提出长期任务分解。 拓展无监督强化学习以进行低层技能获取。 同时,加强强化学习与自然语言理解在BOSS框架中的整合也是一个有前途的方向。将BOSS应用于不同领域,并在各种环境和任务背景中评估其性能,可以为进一步的探索提供潜力。

Leave a Comment

认识DiffPoseTalk:一款新的语音转3D动画人工智能框架

“`html 基于语音的表情动画是计算机图形学和人工智能交叉领域的复杂问题,它涉及根据口语输入生成逼真的面部动画和头部姿势。该领域的挑战在于语音和面部表情之间的复杂多对多映射。每个人都有自己独特的说话风格,同样的句子可以用多种方式表达,通过语调、强调和伴随的面部表情的变化进行标记。此外,人脸运动非常复杂和微妙,仅从语音中创建自然的动画是一项艰巨的任务。 近年来,研究人员探索了各种方法来解决基于语音的表情动画的复杂挑战。这些方法通常依赖于复杂的模型和数据集,以学习语音和面部表情之间的复杂映射关系。虽然取得了重大进展,但在捕捉多样化和自然化的人类表情和说话风格方面仍有很大的改进空间。 在这个领域中,DiffPoseTalk成为一种开创性的解决方案。由一支专 dedicated 研究团队开发,DiffPoseTalk利用弥散模型的强大能力来改变基于语音的表情动画领域。与现有方法不同,这些方法常常困扰于生成多样和自然的动画,DiffPoseTalk利用弥散模型的力量直面挑战。 DiffPoseTalk采用了基于弥散的方法。正向过程将高斯噪声系统地引入到初始数据样本中,例如面部表情和头部姿势,遵循经过精心设计的方差计划。这个过程模仿了说话期间人类面部运动中的固有变化。 DiffPoseTalk真正的魔力在于反向过程。虽然控制正向过程的分布依赖于整个数据集,并且在计算上不可行,但DiffPoseTalk巧妙地使用一个降噪网络来近似这个分布。这个降噪网络经过严格的训练,根据嘈杂的观察预测干净的样本,从而有效地逆向扩散过程。 为了以精确度引导生成过程,DiffPoseTalk集成了一种说话风格编码器。这个编码器采用了基于Transformer的架构,旨在从简短的视频片段中捕捉个人的独特说话风格。它擅长从一系列动作参数中提取风格特征,确保生成的动画忠实地复制说话者的独特风格。 DiffPoseTalk的最显著特点之一是其固有能力,能够生成广泛的3D面部动画和头部姿势,体现多样性和风格。它通过利用弥散模型的潜在能力来复制各种形态的分布来实现这一目标。DiffPoseTalk可以生成各种面部表情和头部运动,有效地还原人类交流的种种细微差别。 在性能和评估方面,DiffPoseTalk显著突出。它在衡量生成的面部动画质量的关键指标上表现卓越。一个关键指标是唇同步性,即每帧所有唇顶点的最大L2误差。DiffPoseTalk始终能够提供高度同步的动画效果,确保虚拟角色的唇部运动与口头表达相一致。 此外,DiffPoseTalk在复制个人说话风格方面表现出色。它确保生成的动画真实地传达出原始说话者的表情和举止,从而为动画增添了一层真实感。 “` 此外,DiffPoseTalk生成的动画以其固有的自然特性为特点。它们散发出面部运动的流畅感,巧妙捕捉到人类表情的微妙细微之处。这种内在的自然性强调了扩散模型在现实动画生成中的功效。 总之,DiffPoseTalk是一种开创性的语音驱动表情动画方法,能够应对将语音输入映射到多样化和风格化的面部动画和头部姿态所带来的复杂挑战。通过利用扩散模型和专用的说话风格编码器,DiffPoseTalk在捕捉人类交流的种种微妙细节方面表现出色。随着人工智能和计算机图形学的不断进步,我们怀着期待的心情,期盼着未来我们的虚拟伙伴和角色能够以人类表情的细腻和丰富性栩栩如生地呈现。

Leave a Comment

该AI研究提出了Kosmos-G:一种通过利用多模型LLM的属性,从广义视觉语言输入中生成高保真零射影像的人工智能模型

最近,从文本描述中创建图像和将文本和图像结合生成新图像方面取得了重大进展。然而,一个未被探索的领域是从广义视觉-语言输入(例如,根据涉及多个对象和人的场景描述生成图像)中生成图像。微软研究(Microsoft Research),纽约大学(New York University)和滑铁卢大学(University of Waterloo)的研究人员团队介绍了名为KOSMOS-G的模型,它利用多模态LLM(Language and Vision Models)来解决这个问题。 KOSMOS-G能够从复杂的文本和多张图片的组合中创建详细的图像,即使它没有见过这些例子。这是第一个可以根据描述生成具有各种对象或事物的图像的模型。KOSMOS-G可以替代CLIP,为使用其他技术如ControlNet和LoRA提供了新的可能性。 KOSMOS-G使用了一种巧妙的方法从文本和图片生成图像。首先,它通过对训练一个多模态LLM(能够同时理解文本和图片)来与CLIP文本编码器(擅长理解文本)进行对齐。 当我们给KOSMOS-G一个带有文本和分割图片的标题时,它被训练为创建符合描述和遵循指示的图像。它通过使用预训练的图像解码器和利用从图片中学到的知识,在不同的情况下生成准确的图片。 KOSMOS-G可以根据指令和输入数据生成图像。它具有三个训练阶段。在第一阶段,模型在多模态语料库上进行预训练。第二阶段,通过CLIP监督训练一个AlignerNet,将KOSMOS-G的输出空间与U-Net的输入空间进行对齐。第三阶段,通过一个组合生成任务在策划数据上对KOSMOS-G进行微调。在第一阶段,只训练MLLM。在第二阶段,AlignerNet在MLLM冻结状态下进行训练。在第三阶段,AlignerNet和MLLM在一起进行训练。图像解码器在各个阶段始终保持冻结状态。 KOSMOS-G在不同设置下的零样本图像生成能力非常出色。它能够制作有意义、外观好且可以不同方式自定义的图像。它可以改变上下文,添加特定风格,进行修改,以及给图像添加额外细节等。KOSMOS-G是第一个在零样本设置下实现多实体VL2I的模型。 KOSMOS-G可以轻松取代图像生成系统中的CLIP。这为以前无法实现的应用程序开辟了令人兴奋的新可能性。借助CLIP的基础,KOSMOS-G有望推动从基于文本生成图像到基于文本和视觉信息的组合生成图像的转变,为许多创新应用提供机会。 总之,KOSMOS-G是一个可以从文本和多张图片中创建详细图像的模型。它在训练中采用了一种称为“在指示之前进行对齐”的独特策略。KOSMOS-G擅长制作单个对象的图像,并且是第一个能够处理多个对象的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术结合使用,造就新的应用。简而言之,KOSMOS-G是朝着以图像生成语言的方向迈出的第一步。

Leave a Comment

使用Segmind API和Postman轻松集成GenAI应用程序

简介 在商业竞争中,将人工智能(AI)整合到我们的应用程序中变得愈发必要。添加这些AI功能可以提升用户体验、自动化任务并提供有价值的见解。由于我们拥有多种多样的GenAI模型,所以有很多可能性。然而,将AI整合到您的应用程序中可能会很复杂,特别是与GenAI这种新趋势相结合,其中许多过程仍在试验阶段。因此,假设您想了解如何将GenAI整合到您的个人应用程序或软件中,例如时尚应用程序,那么本文旨在通过使用Segmind API和Postman实现GenAI应用程序集成以简化此过程。 学习目标 了解Segmind模型和API 了解Segmind中的GenAI集成API 使用Segmind API中的Postman 本文是发布在数据科学博客马拉松的一部分。 理解Segmind模型API 要全面了解Segmind的GenAI API,您必须了解其目的、功能和优点。一些值得关注的潜在用例包括电子商务应用程序的图像识别、时尚设计、动画、背景去除、艺术作品、绘画、漫画等。除了易于使用,Segmind AI还通过网站上的API和游乐场提供可用的GenAI模型,网址为https://www.segmind.com/models。在本文中,我们将使用API推断调用。选择适合您任务的模型并使用可用的API脚本非常简单。下面是一个示例,展示了一个可在https://www.segmind.com/models/sd1.5-outpaint/api找到的稳定扩散1.5超出模型。 import requestsfrom base64 import b64encodedef toB64(imgUrl): return str(b64encode(requests.get(imgUrl).content))[2:-1]api_key = “YOUR API-KEY”url =…

Leave a Comment

微软研究人员介绍了Kosmos-2.5:一种用于机器阅读文本密集型图像的多模式文学模型

近年来,大型语言模型(LLMs)在人工智能领域获得了重要地位,但它们主要关注文本,并且在理解视觉内容方面存在困难。多模态大型语言模型(MLLMs)应运而生,用于弥合这一差距。MLLMs将视觉和文本信息结合在一个基于Transformer的模型中,使其能够从两种模态中学习和生成内容,标志着人工智能能力的重大进展。 KOSMOS-2.5是一个多模态模型,旨在在统一框架内处理两个密切相关的转录任务。第一个任务涉及生成具有空间感知的文本块,并在文本丰富的图像中为文本行分配空间坐标。第二个任务侧重于以markdown格式生成结构化文本输出,捕捉各种样式和结构。 这两个任务在单个系统下管理,利用共享的Transformer架构、任务特定的提示和可适应的文本表示。该模型的架构结合了基于ViT(Vision Transformer)的视觉编码器和基于Transformer架构的语言解码器,通过一个重采样模块连接起来。 为了训练这个模型,它在大量的文本密集图像数据集上进行了预训练,其中包括带有边界框和纯markdown文本的文本行。这种双任务训练方法增强了KOSMOS-2.5的整体多模态识字能力。 以上图片显示了KOSMOS-2.5的模型架构。KOSMOS-2.5的性能在两个主要任务中进行了评估:端到端的文档级文本识别和以markdown格式从图像生成文本。实验结果展示了它在理解文本密集图像任务方面的强大性能。此外,KOSMOS-2.5在涉及少样本和零样本学习的场景中展示了有前途的能力,使其成为处理文本丰富图像的现实应用的多功能工具。 尽管取得了这些有希望的结果,但当前模型仍面临一些限制,并提供了宝贵的未来研究方向。例如,尽管KOSMOS-2.5在输入和输出涉及文本的空间坐标的情况下进行了预训练,但目前不支持使用自然语言指令对文档元素的位置进行细粒度控制。在更广泛的研究领域中,进一步发展模型扩展能力是一个重要方向。

Leave a Comment

NVIDIA Studio系列增加了搭载RTX显卡的Microsoft Surface Laptop Studio 2

编辑注:本文是我们每周的NVIDIA Studio系列文章的一部分,该系列文章致力于展示特色艺术家、提供创意技巧,并展示NVIDIA Studio技术如何改进创意工作流程。 NVIDIA Studio笔记本电脑系列迎来了新的微软Surface Laptop Studio 2,搭载GeForce RTX 4060、GeForce RTX 4050或NVIDIA RTX 2000 Ada Generation笔记本GPU,为创作者提供强大的性能和多功能性。 微软Surface Laptop Studio 2。 由NVIDIA Studio平台支持,今天宣布的Surface Laptop Studio 2提供了预装的Studio驱动程序,以及加速专业和创意工作流程的独家工具,确保最大的稳定性。…

Leave a Comment

即将到来:NVIDIA DLSS 3.5用于Chaos Vantage、D5 Render、Omniverse和热门游戏标题

编辑注:本文是我们每周的NVIDIA Studio系列的一部分,该系列庆祝特色艺术家,提供创意技巧,并演示NVIDIA Studio技术如何改进创意工作流程。我们还在深入探讨新的GeForce RTX 40系列GPU功能、技术和资源,以及它们如何显著加速内容创作。 Gamescom,一年中最大的游戏盛会,将于明天在德国科隆开幕,但游戏玩家和内容创作者可以在本周在NVIDIA Studio中找到一些最新的创新、工具和AI技术。 在正式开幕的前夕,NVIDIA宣布了NVIDIA DLSS 3.5,其中包括光线重建功能——这是一个新的神经渲染AI模型,可以创建比传统渲染方法更美丽、更真实的射线追踪视觉效果,用于实时3D创意应用和游戏。 NVIDIA RTX Remix是一个免费的基于NVIDIA Omniverse构建的修改平台,现在可供使用,它为经典游戏的#RTXON修改提供了工具和分享机会。我们还宣布了《半条命2 RTX:RTX Remix项目》,这是一个由Valve的《半条命2》社区重制项目,该游戏是有史以来评分最高的游戏之一。 本周的NVIDIA Studio系列还展示了数字艺术家Diyor Makhmudov受到了非凡的游戏系列《巫师》的启发的3D作品。 Reallusion软件发布了iClone Omniverse Connector的更新版本,包括项目的实时同步和对OpenUSD的增强导入功能,从而实现更快、更高效的工作流程。在最新版本的《进入Omniverse》系列中了解更多信息。 最后,我们呼吁所有视频编辑者报名参加位于俄勒冈州波特兰的首届达芬奇解决方案活动ResolveCon,活动将于8月25日至27日举行。现场参与者有机会赢取包括新的GeForce RTX GPU在内的赠品,而虚拟参与者可以观看由NVIDIA…

Leave a Comment

《超越Photoshop:Inst-Inpaint如何通过扩散模型颠覆物体去除》

图像修复是一门古老的艺术。它是指在图像中移除不需要的对象并填补丢失的像素,使得修复后的图像看起来逼真并且保持原始的上下文。图像修复的应用非常广泛,包括增强图像美感或隐私,通过从图像中消除不需要的对象,改善旧照片或损坏照片的质量和清晰度,通过填补图像中的间隙或孔洞来完整缺失信息,以及通过生成艺术效果来表达创造力或情感。 介绍了一种名为Inst-Inpaint的教学图像修复方法,该方法可以自动根据图像和文本指令来移除不需要的对象。上面的图像展示了使用Inst-Inpaint的示例结果的输入和输出。在这里,使用了最先进的扩散模型进行处理。扩散模型是一类概率生成模型,可以将噪声转化为代表性的数据样本,并且在生成式人工智能中广泛应用于获取高质量的图像。 研究人员首先构建了GQA-Inpaint,一个真实世界的图片数据集,用于训练和测试提出的教学图像修复任务的模型。为了创建输入/输出对,他们利用了GQA数据集中的图像和场景图。该方法包括以下步骤: 选择感兴趣的对象(要移除的对象)。 执行实例分割以定位图像中的对象。 然后,应用最先进的图像修复方法来擦除对象。 最后,创建基于模板的文本提示来描述移除操作。因此,GQA-Inpaint数据集包含147165个独特的图像和41407个不同的指令。在这个数据集上训练的Inst-Inpaint模型是一种基于条件潜在扩散模型的基于文本的图像修复方法,它不需要任何用户指定的二进制掩码,并且可以在一步中进行对象移除,而无需预测掩码。 需要注意的一个细节是图像沿着x轴被分为三个相等的部分,并命名为“left”、“center”和“right”,使用类似“在桌子上”的自然命名和“位置”来标识图像中的对象。为了比较实验结果,研究人员使用了多种指标,包括一种新颖的基于CLIP的修复评分,来评估GAN和基于扩散的基准模型,并证明了显著的定量和定性改进。 在一个不断演变的数字化领域中,人类创造力和人工智能之间的界限不断模糊,Inst-Inpaint证明了人工智能在图像处理中的变革力量。它为使用文本指令进行图像修复开辟了许多新的途径,再次将人工智能与人类大脑拉近了距离。

Leave a Comment

阿里巴巴AI研究提出Composer:一个基于数十亿(文本,图像)对训练的巨型(50亿参数)可控扩散模型

现如今,基于文本的生成图片模型已经能够创建各种逼真的图片。最近的许多研究努力将文本到图片的模型进一步扩展,通过添加分割图、场景图、绘画、深度图和修复遮罩等条件或在少量特定主题数据上进行微调来实现定制化生成。然而,当将这些模型应用于实际应用时,设计师仍然需要更多的控制。例如,在真实世界的设计项目中,生成模型通常需要帮助可靠地生成同时对语义、形式、风格和颜色有要求的图片。 阿里巴巴中国的研究人员介绍了Composer。它是一个训练有数十亿个(文本,图片)对的大型(50亿参数)可控扩散模型。他们认为组合性而不仅仅是条件性是控制图像生成的秘密。后者引入了很多可能的组合,可以极大地扩大控制空间。类似的思想在语言和场景理解领域也有研究。在这些领域中,组合性被称为组合泛化,即能够从有限数量的可用组件中识别或创建出有限数量的独特组合的能力。基于上述概念,他们在这项工作中提供了一个组合生成模型的实现,称之为Composer。他们将可以平滑重新组合视觉元素以创建新图片的生成模型称为组合生成模型。他们使用一个具有UNet骨干的多条件扩散模型来实现Composer。每个Composer训练迭代有两个阶段:分解阶段,在这个阶段,计算机视觉算法或预训练模型被用来将一批图片分解成单个表示;合成阶段,在这个阶段,Composer被优化以从表示子集中重建图片。 图1:组合图像合成的思想,首先将一张图片分解成多个基本部分,然后以很高的创造力和控制度重新组合它们。为了做到这一点,这些组件以各种形式存在,并在整个生成过程中充当条件,使得在推理步骤中可以进行广泛的修改。建议以高分辨率查看。 Composer可以解码出从未见过的表示组合中的独特图片,这些表示可能来自多个来源,可能不兼容,而仅仅是通过重建目的进行训练。尽管概念上很简单且易于使用,但Composer在传统和以前未开发的图片生成和操作任务上表现出色,如但不限于文本到图片生成、多模态条件图片生成、风格转换、姿势转换、图片翻译、虚拟试穿、插值和来自各个方向的图片变化、通过修改草图进行图片重构、依赖图片翻译和图片翻译。 此外,Composer可以将所有上述操作的可编辑区域限制在用户指定的区域内,这比传统的修复操作更灵活,同时通过引入掩膜的正交表示防止在该区域之外修改像素。尽管经过多任务训练,Composer在COCO数据集上利用标题作为标准,在文本到图片合成中获得了零射击FID为9.2的结果,展示了其出色的性能。他们的分解-合成范式表明,当条件是可组合的而不仅仅是单独使用时,生成模型的控制空间可以大大增加。因此,他们的Composer架构可以重塑广泛的传统生成任务,并揭示了迄今未被认识的生成能力,为进一步研究各种分解技术提供了启示。此外,基于无分类器和双向引导,他们展示了许多使用Composer进行不同图片生成和修改任务的方法,并为后续研究提供了有益的参考。在将这项工作公开之前,他们计划仔细检查Composer如何降低滥用风险,并可能提供一个经过筛选的版本。

Leave a Comment

2023年最佳开源情报(OSINT)工具

“OSINT” 是指开源情报软件,用于从公开来源收集数据的程序。OSINT工具主要用于对目标进行情报收集,无论是个人还是公司。 以下是一些最常见的OSINT工具(无特定顺序): Maltego Maltego是一个灵活的开源情报平台,可以缩短和加速查询。它提供对58个数据源的访问,允许您手动添加数据,并具有最多100万个实体的数据库。其强大的可视化功能还允许您选择各种格式,如块状、分层或圆形图,并添加权重和注释,以进行更细致的分析。 Maltego的能力可以为信任和安全团队、执法部门和网络安全专家提供令人信服的调查结果和易于理解的洞察力。 Intel 471 Intel 471是一个免费的开源OSINT侦察工具,可以收集和分析各种信息,如IP地址、CIDR范围、域名和子域名、AS号码、电子邮件地址、电话号码、姓名和用户名,甚至比特币地址。 Intel 471拥有超过200个模块,可以执行最广泛的操作,并揭示有关任何目标的重要事实。它提供命令行界面和内置的Web服务器,配备用户友好的GUI界面,两者都可以在GitHub上找到。 您可以使用它来查看您的公司是否存在由于数据暴露而导致的安全漏洞。总体而言,它是一个强大的网络情报工具,可以揭示有关潜在危险的互联网组织的以前未知的信息。 OSINT Framework 开源情报(OSINT)框架是一个很好的工具。它比独立调查每个应用程序和工具更方便,因为它包含了从数据源到有用连接到成功工具的一切。 这个列表不仅限于Linux,还提供了其他操作系统的替代方案,使其成为一个通用资源。事实上,拥有如此组织良好的资源比以往任何时候都更有益处;唯一的困难在于制定一种有效的搜索技术,缩小结果范围,如车辆注册或电子邮件地址。开源情报(OSINT)框架正成为收集情报和组织数据的首选工具。 SEON 在当今数字经济中,使用一个人的社交媒体和其他在线账户来证明他们的身份变得越来越普遍。SEON已经在验证数字身份方面处于领先地位。 您的公司可以通过其电子邮件和电话号码系统访问超过50个社交信号,这些信号组合形成全面的风险评估。这些信号不仅可以验证客户的电子邮件地址或电话号码,还可以获取有关客户在线行为的其他信息。 除了易于使用和访问之外,SEON还允许组织直接通过API或甚至通过Google Chrome插件进行查询。 Lampyre Lampyre是一款以OSINT为重点的高级软件,可以有效地进行尽职调查、网络威胁情报、刑事调查和金融分析。您可以通过单击一次安装在计算机上,也可以在浏览器中使用。 Lampyre可以自动分析100多个经常更新的数据源,从一个单一的数据点(如公司注册号、完整名称或电话号码)开始。…

Leave a Comment

微软研究员介绍了新的多模态大型语言模型KOSMOS-2

在一篇新论文中,微软的研究人员介绍了KOSMOS-2,这是一个新的多模态大型语言模型,已经能够成功地作为通用接口展现其效果KOSMOS-2旨在通过整合基础能力,在语言、视觉和视觉语言任务中彻底改变人类与人工智能之间的交互多模态大型语言模型…

Leave a Comment

认识全新的Zeroscope v2模型:一种免费的文本到视频模型,可在现代显卡上运行

在一系列前所未有的事件中,一种名为Zeroscope的下一代开源AI模型已经在市场上推出,具备在现代图形卡上运行最先进的文本到视频服务的能力,并且以相对较低的成本提供给用户。中国的Modelscope旗下的Zeroscope旨在通过解锁新的AI用例,彻底改变媒体和视频创作领域。 了解Zeroscope的功能组成对于理解它如何通过文本革新视频生成领域非常重要。这个开源模型的独特之处在于它的两个关键组件,Zeroscope V2和Zeroscope V2XL;Zeroscope_v2 567w,用于以576×320像素的分辨率快速创建内容以探索视频概念。然后可以使用zeroscope_v2_XL将高质量视频升级到“高清”分辨率1024×576,因此用户可以使用ZeroScope V2快速创建视频,然后使用V2XL进行升级。 除此之外,由于多级模型的17亿个参数,Zeroscope的要求令人惊讶地易于管理。Zeroscope在较低分辨率下的VRAM需求为7.9千兆字节,而在较高分辨率下为15.3千兆字节。较小的模型可以在许多标准图形卡上执行,使其可供更广泛和更一般的用户使用。 Zeroscope通过对近10,000个剪辑和近30,000个帧进行偏移噪声的战略训练。这种非传统的行为组合为Zeroscope开启了新的机遇和可能性。通过引入随机物体移动、帧时序的微小变化和轻微扭曲等变化,模型改善了对数据分布的理解,从而帮助模型以多样化的尺度生成更真实的视频,并有效地解释文本描述中微妙的变化。凭借所有这些功能,Zerscope迅速成为商业文本到视频模型提供商Runway的有力竞争对手。 文本到视频作为一项工作仍在进展中,生成的视频片段往往较短且存在一些视觉缺陷。然而,如果我们看一下图像AI模型的发展历程,它们在达到照片逼真质量之前也面临了类似的挑战。主要挑战是视频生成在训练和生成阶段都需要更多的资源。 Zeroscope作为一种强大的文本到视频模型的出现为许多新的数字进展和用例铺平了道路,例如: 个性化游戏、虚拟现实和元宇宙:Zeroscope的转换能力可以重新定义视频游戏中的故事叙述。玩家可以通过他们的话语实时影响剪辑和游戏玩法,实现难以想象的互动和个性化。此外,游戏开发者可以快速原型和可视化游戏场景,加快开发速度。 个性化电影:Zeroscope的技术通过基于用户描述生成个性化内容来颠覆媒体行业。用户可以输入情节或场景描述,并根据其回应创建个性化视频。此功能可以实现观众的积极参与,并为定制内容创作开辟了新的途径,例如个性化视频广告或用户定制的电影场景。 合成创作者:Zeroscope为依靠AI将其想法编写、制作和编辑成现实的新一代创作者铺平了道路。它消除了视频创作中的技术技能障碍,并有可能为自动化、高质量的视频内容建立新的标准。人类和AI创作者之间的界限变得模糊,拓宽了创造力的领域。 Zeroscope旨在成为一种轻量级的突破性模型,可以轻松进行微调,并且不需要特殊的资源设置,使其不仅成为多个普通用户可以使用的工具,而且许多缺乏大型实验室资源的新兴研究人员现在可以使用此类算法来更好地理解它们并以合理的成本推进整个领域的发展。看到激烈竞争将激励Zeroscope的创作者创新并占据强劲的市场地位将是令人惊叹的。

Leave a Comment

微软研究员推出KOSMOS-2:一种能够与视觉世界相连接的多模态大语言模型

多模态大型语言模型(MLLMs)在各种活动中已经展示了成功,包括语言、视觉和视觉语言任务。在零样本和少样本条件下,MLLMs可以感知文本、图片和音频等通用模态,并使用自由形式的文本生成答案。在本研究中,它们使多模态大型语言模型具备自我定位的能力。对于视觉语言任务,定位能力可以提供更实用和有效的人工智能界面。该模型可以解释图片区域及其地理坐标,让用户可以直接指向图像中的物品或区域,而不是输入冗长的文本描述来引用它。 图1:展示了使用KOSMOS-2生成的选定样本。视觉定位、定位问题回答、使用边界框的多模态引用、定位图片字幕和视觉定位都是一些例子。 该模型的定位功能还使其能够提供视觉响应(即边界框),这可以帮助其他视觉语言任务,如理解指代表达式。与仅基于文本的响应相比,视觉响应更精确,能够消除指代模糊。生成的自由形式文本响应的定位能力可以将名词短语和指代术语与图片区域连接起来,以产生更准确、丰富和详尽的响应。微软研究的研究人员介绍了具备定位能力的多模态大型语言模型KOSMOS-2,该模型基于Transformer通过下一个单词预测任务进行训练。 他们构建了一个基于网络规模的数据集,其中包含了图片和文本的定位配对,并将其与KOSMOS-1中的多模态语料库进行整合,以充分利用定位的潜力训练模型。定位的图片和文本配对是来自LAION-2B和COYO-700M的子集。他们提供了一个流程,从字幕中提取和连接文本片段(如名词短语和指代表达式)到图片中相应对象或区域的空间位置(如边界框)。他们将边界框的地理坐标转化为一串位置标记,并在相应的文本片段之后添加。数据格式充当了将图像元素与字幕链接起来的“超链接”。 实验结果表明,KOSMOS-2在定位任务(短语定位和指代表达理解)和指代任务(指代表达式生成)上表现优秀,并且在KOSMOS-1评估的语言和视觉语言任务上也表现出竞争力。图1说明了通过定位功能,KOSMOS-2可以用于更多的下游任务,如定位图片字幕和定位视觉问题回答。GitHub上提供了在线演示。

Leave a Comment

MosaicML刚刚以Apache 2.0协议发布了他们的MPT-30B

在MosaicML-7B取得巨大成功之后,MosaicML再次超越了他们之前设定的基准。在这个新的突破性发布中,MosaicML推出了MosaicML-30B。 MosaicML是一个非常精确和强大的预训练transformer。MosaicML声称,MosaicML-30B甚至比ChatGPT3更好。 MosaicML-30B发布之前,MosaicML-7B已经席卷了人工智能界。MPT-7B的基础指导、基础聊天和故事创作都取得了巨大的成功。公司声称,这些模型在全球下载了300多万次。推动MosaicML推出更好的引擎(如MPT-30B)的最大原因之一是社区对他们之前发布的模型的热衷。 令人难以置信的是,社区如何运用这些MPT引擎构建出更好的调整并提供具体的使用案例。一些有趣的案例包括LLaVA-MPT。LLaVa-MPT将视觉理解添加到预训练的MPT-7B中。 类似地,GGML优化MPT引擎以在Apple Silicon和CPU上更好地运行。GPT4ALL是另一个使用案例,它让您使用MPT作为基础引擎运行类似于GPT4的聊天选项。 仔细观察,MosaicML能够给大公司带来激烈竞争和更好的替代品的最大原因之一是他们提供的竞争性特性列表以及他们的模型相对于不同用例的适应性和相对简单的集成。 在这个发布中,MosaicML还声称他们的MPT-30B比现有的ChatGPT3表现更好,但使用的参数数量只有ChatGPT的三分之一,使其成为相对于现有生成解决方案来说非常轻量级的模型。 它比MosaicML现有的MPT-7B更好,并且这个MPT-30B可以在商业许可下进行商业使用。 不仅如此,MPT-30B还带有两个预训练模型,即MPT-30B-Instruct和MPT-30B-Chat,这两个模型能够受到单个指令的影响,并且能够进行较长时间的多轮对话。 它之所以更好的原因还有很多。MosaicML设计MPT-30B采用自下而上的方法,确保每个移动部件都能更好地执行和更高效地运行。MPT-30B通过8k个标记上下文窗口进行训练。它通过ALiBi支持更长的上下文。 借助FlashAttention,它改进了训练和推断性能。MPT-30B还具备更强的编码能力,这要归功于他们所处理的数据的多样性。该模型在Nvidia的H100上扩展到了8K的上下文窗口。该公司声称,就他们所知,这是在H100上进行训练的第一个LLM模型,而这些模型对于客户来说是随时可用的。 MosaicML还保持了模型的轻量级,这有助于新兴组织降低运营成本。 MPT-30B的大小也是特意选择的,以便在单个GPU上轻松部署。1xA100-80GB以16位精度或1xA100-40GB以8位精度可以运行该系统。其他相当的LLMs,如Falcon-40B,具有更大的参数数量,并且不能在单个数据中心GPU上提供服务(今天);这就需要2个或更多的GPU,从而增加了最低推理系统成本。

Leave a Comment

NTU和Microsoft研究人员提出了MIMIC-IT:一个大规模的多模态上下文中的指导调整数据集

近年来,人工智能的发展集中在具有强大理解能力并能够行动的对话助手上。这些对话助手的显著成功可以归因于指令调整的实践,以及大型语言模型(LLMs)的高泛化能力。这意味着优化LLMs以适应由不同和优秀的指令描述的各种活动。通过包括指令调整,LLMs对用户意图有了更深入的理解,即使在新的未开发任务中也能提高它们的零-shot性能。 指令调整内部化了上下文,这在用户交互中是可取的,特别是当用户输入绕过明显的上下文时,这可能是零-shot速度提高的一个原因。对话助手在语言挑战方面取得了惊人的进步。然而,理想的非正式助手必须能够处理需要多种模态的任务。这需要一个广泛且顶尖的多模态指令跟随数据集。原始的图像语言指令跟随数据集称为LLaVAInstruct-150K或LLaVA。它是利用COCO图片、指令和基于项目边界框和图像描述的GPT-4的数据构建的。 LLaVA-Instruct-150K具有灵感,但它有三个缺点。 (1) 视觉多样性有限:因为数据集只使用COCO图片,所以其视觉多样性有限。 (2) 它使用单个图像作为可视输入,但是多模态对话助手应该能够处理多个照片甚至是长片。例如,当用户请求帮助为一组照片(或图像序列,如视频)命名时,系统需要正确响应。 (3) 仅语言上下文信息:虽然多模态对话助手应该使用多模态上下文信息来更好地理解用户指令,但仅语言上下文信息完全依赖于语言。 例如,如果人类用户提供所需功能的特定视觉样本,助手可以更好地将其对图像的描述与语气、风格或其他元素对齐。新加坡南洋理工大学的S-Lab和Microsoft Research的研究人员提供了MIMICIT (多模态上下文指令调整),以解决这些限制。MIMIC-IT具有多样化的视觉场景,包括不同数据集中的一般场景、自我中心视图场景和室内RGB-D图像的照片和视频。多个图像(或视频)用作可视数据,以支持各种图像或电影的指令-响应配对。多模态上下文信息包括在不同的指令-响应对、照片或视频中呈现的上下文数据 (有关数据格式的更多详细信息,请参见图1)。 他们提供了Sythus,一种受自我训练方法启发的自动化管道,用于有效地创建指令-响应配对。Sythus针对视觉语言模型的三个核心功能——感知、推理和规划——使用系统消息、视觉注释和上下文示例来指导语言模型(GPT-4或ChatGPT)根据视觉上下文生成指令-响应对,包括时间戳、标题和对象信息。指令和回复也被翻译成七种其他语言,以允许多语言使用。他们基于OpenFlamingo在MIMIC-IT上训练了一个名为Otter的多模态模型。 图1: MIMIC-IT与LLaVA-Instruct-150K数据格式比较。 (a) LLaVA-Instruct150K由单张图片和必要的上下文语言信息(黄框)组成。(b) MIMIC-IT提供多模态上下文信息,可以容纳多个图片或视频在输入数据中,即将视觉和语言输入都视为上下文信息。 Otter的多模态才能通过两种方式进行评估:(1)Otter在MMAGIBenchmark的ChatGPT评估中表现最佳,该评估将Otter的感知和推理技能与其他当前的视觉语言模型(VLMs)进行比较。(2)在多模态竞技场的人类评估中,Otter表现优于其他VLMs并获得最高的Elo分数。 Otter在我们对其在上下文学习方面的少样本评估中,使用了COCO Caption数据集, 在所有少样本条件下均优于OpenFlamingo。 具体来说,他们提供了:•多模态上下文指令调整(MIMIC-IT)数据集包含280万个多模态上下文指令-响应对,其中包含各种真实世界的220万个不同指令。 •Syphus是一个自动化流程,使用LLMs创建指令-响应对,可以根据视觉上下文生成高质量的多语言指令-响应对。…

Leave a Comment

揭秘语言模型中的逆向缩放

一个重要的方面是要考虑到反比例缩放问题,这可能会影响更大的LLM的表现虽然这可能会带来挑战,但也为改进和优化提供了机会通过解决这个问题,我们可以增强这些模型的整体能力,使它们更有效地处理各种任务这些潜在的改进突显了更大的LLM在人工智能领域的价值和潜力

Leave a Comment

谷歌AI提出PixelLLM:一种能够进行细粒度定位和视觉语言对齐的视觉语言模型

大型语言模型(LLMs)成功利用了人工智能(AI)的子领域,包括自然语言处理(NLP),自然语言生成(NLG)和计算机视觉。借助LLMs,我们能够创建能够复杂推理关于图像的视觉语言模型,回答与图像相关的问题,并用自然语言描述图像。然而,LLMs是否能够执行词定位或定位引用等定位任务仍然不确定。 为了克服这个挑战,谷歌研究和UC圣地亚哥的研究人员团队引入了一种智能模型称为PixelLLM,可以实现精细的定位和视觉语言对齐。这种方法受到了人们自然行为的启发,尤其是婴儿用手势、指点和命名来描述他们的视觉环境。团队表示,目标是找出LLMs如何从视觉输入中获得空间理解和推理。 PixelLLM将语言模型的每个单词输出密集对准到像素位置上。为此,添加了一个微小的多层感知机(MLP),它能够对每个单词的像素位置进行回归。使用了低秩微调(LoRA),允许更新或冻结语言模型的权重。该模型还可以接收文本或位置提示,使其能够提供符合提示的输出。 该模型的架构包括图像编码器、提示编码器和提示特征提取器。大语言模型接受提示条件下的图片特征和可选的文本提示作为输入,并输出每个单词的定位和标题。该架构能够接受多样的语言或位置组合作为输入或输出,适应各种视觉语言活动。 团队使用诸如密集物体字幕、位置条件字幕和引用定位等众所周知的视觉任务评估了该模型。PixelLLM在各种挑战中展现出卓越的性能指标,包括RefCOCO引用定位上的89.8 P@0.5,Visual Genome条件化字幕上的19.9 CIDEr以及密集物体字幕上的17.0 mAP。密集的像素定位公式非常重要,这在对RefCOCO进行的消融实验中得到了证明,相对于其他的定位公式,它取得了3.7个百分点的提升。因此,PixelLLM在实现精准的视觉语言对齐和定位方面取得了成功。 团队总结了他们的主要贡献如下: 引入了一个名为PixelLLM的新的视觉语言模型,可以生成单词定位和图片标题。 该模型支持文本或可选的位置提示,除图片输入外。 使用了定位的叙述数据集进行每个单词定位的训练。 该模型能够适应各种视觉语言任务,包括分割、位置条件字幕、引用定位和密集字幕。 该模型在位置条件字幕、密集字幕、引用定位和分割方面展现出卓越的结果。

Leave a Comment

Can't find what you're looking for? Try refining your search: