Press "Enter" to skip to content

Month: October 2023

此AI论文提出了“MotionDirector”:一种人工智能方法来定制视频运动和外观

文本到视频扩散模型在近年来取得了显著进展。现在只需提供文本描述,用户就可以创建逼真或富有想象力的视频。这些基础模型也被调整为生成与特定外观、风格和主题相匹配的图像。然而,文本到视频生成中定制运动的领域仍需探索。用户可能想创建具有特定运动的视频,比如汽车向前行驶然后向左拐。因此,将扩散模型调整为创建更具体内容以满足用户偏好变得重要。 本文的作者提出了MotionDirector,帮助基础模型实现动作定制同时保持外观多样性。该技术使用双路径架构,将模型分别训练为学习给定单个或多个参考视频中的外观和动作,从而方便将定制运动概括到其他设置中。 双架构包括空间路径和时间路径。空间路径具有一个基础模型,其在每个视频的转换器层中集成了可训练的空间LoRAs(低秩调整)。这些空间LoRAs使用每个训练步骤中随机选择的单个帧进行训练,以捕捉输入视频的视觉属性。相反,时间路径复制了基础模型,并与空间路径共享空间LoRAs,以适应给定输入视频的外观。此外,此路径中的时间转换器还通过使用输入视频的多个帧进行培训来增强时间LoRAs,以掌握固有的动作模式。 仅通过部署经过训练的时间LoRAs,基础模型就可以合成具有多样外观的学习动作的视频。双架构使模型能够分别学习视频中物体的外观和动作。这种解耦使得MotionDirector能够将视频的外观和动作分离,然后从各种源视频中进行组合。 研究人员在几个基准测试中比较了MotionDirector的性能,涵盖了80多种不同的动作和600个文本提示。在UCF Sports Action基准测试中(包含95个视频和72个文本提示),MotionDirector的运动保真度更好,被人工评估者75%的时间受到青睐。该方法还优于基础模型的25%偏好。在第二个基准测试中,即LOVEU-TGVE-2023基准测试中(包含76个视频和532个文本提示),MotionDirector的表现优于其他可控生成和基于调整的方法。结果表明,可以使用MotionDirector定制多种基础模型,以产生具有多样性和所需运动概念的视频。 MotionDirector是一种将文本到视频扩散模型调整为生成具有特定运动的视频的有前景的新方法。它在学习和调整主题和相机的具体运动方面表现出色,并可用于生成具有各种视觉风格的视频。 MotionDirector可以改进的一点是学习参考视频中多个主题的运动。然而,即使有这个限制,MotionDirector仍具有提升视频生成的灵活性的潜力,允许用户制作符合其偏好和需求的视频。

Leave a Comment

为B2B公司实现基于AI的客户细分:一份路线图

总部位于北卡罗来纳州的英格索尔兰德是世界领先的综合企业之一该公司拥有多个业务部门,包括压缩空气系统、暖通空调解决方案和面向科学实验室和货运运输公司等多个行业的尖端技术产品它还在175多个国家有业务,主要在…运作

Leave a Comment

“人工智能如何帮助像我表弟这样有运动障碍的人”

五年前,我年轻美丽的表亲正处在人生最美好的时期,却经历了一场恐怖的折磨她被残忍地袭击,导致创伤性脑损伤和严重的身体残疾奇迹般地,她活了下来,但她的生活被永久改变了她突然发现自己瘫痪了,无法说话随着她的认知功能逐渐恢复,我们必须与她建立一种沟通渠道,以了解她的需求、思想和情绪

希望的曙光首次从她的眼睛中显现出来:她能向上凝视表示“是”她的颈部肌肉很虚弱,但她逐渐开始有意识地直视着告诉我们她想要什么正是在她旅程的这个阶段,她接触到了配备凝视交互技术的计算机通过眼动追踪技术,她能够凝视屏幕键盘上的某些字母以输入文字但这样的速度很慢,也很累借助人工智能的进步,我们有巨大的潜力通过提高凝视检测的速度和准确性来改变这一点

高效沟通的道路远非一帆风顺这往往是一个令人沮丧和心碎的过程要使技术发挥作用,她必须集中注意力在每个字母上一段时间,但有很多时候她的注意力动摇,或是她的脖子无法保持稳定这个过程是缓慢的,充满错误,许多尝试都以苦恼告终

我表亲的困境并非个例对于像她这样因伤害而失去运动功能的许多人,以及患有脑性麻痹或多发性硬化等神经系统疾病的人来说,凝视交互是唯一有效的沟通方式虽然辅助技术(如眼球输入法)具有改变生活的潜力,但目前最好的眼球输入系统报告的文本输入速度相对较慢,约为每分钟7-20个单词,而典型的口语速度在每分钟125-185个单词之间这是一个显著的差距,它突出了改进辅助技术以提高依靠它们进行沟通的所有个人的生活质量和能力的需求

这就是我的研究目标目标是使通信对于无数运动障碍的人来说更高效、更可访问,对于他们来说,这些技术可以成为改变生活的现实通过理解如何最好地使用人工智能,我希望重新想象用户如何能够用眼睛高效地输入文字

我非常幸运能够在谷歌和剑桥大学人类启发人工智能中心(CHIA)的支持下追求这个目标今年初,我开始了博士学位,由Per Ola Kristennson教授指导,他的关于一种名为“非停驻”眼球输入法的人工智能技术的开创性工作打开了这些系统设计范式的可能性

眼球输入法系统在进展中存在一个显著的差距,即缺乏与最终用户本人的直接参与为了了解他们的需求、愿望和障碍,我已经开始对依靠眼球输入法进行日常沟通的非语言个体进行访谈,从而设计更好地帮助眼球输入法用户实现目标的技术这反映了CHIA在人工智能创新方面采取的方法,将将最受人工智能影响的人们置于开发过程的核心

通过将人工智能与凝视输入技术结合,我们的目标是赋予像我表亲这样的人们表达自己、与世界联系并恢复独立感的能力

Leave a Comment

沃尔玛正在考虑使用人工智能技术来提供更加个性化的购物体验

零售巨头沃尔玛正在寻求人工智能的帮助,为顾客提供更个性化的购物体验这并不是该公司首个利用生成式人工智能的项目,今年早些时候,他们在公司办公室开发了一款由人工智能驱动的应用程序根据Fox News的报道…

Leave a Comment

CMU与Google DeepMind的研究人员介绍了AlignProp:一种基于直接反向传播的人工智能方法,用于微调文本到图像扩散模型以实现期望的奖励函数

概率扩散模型已成为连续域生成建模的已确立规范。在文本到图像扩散模型方面,DALLE引领潮流。这些模型以其在广泛的网络规模数据集上进行训练以生成图像的能力而受到重视。本论文讨论了文本到图像扩散模型在图像生成的前沿地位方面的最新发展情况。这些模型是通过在大规模无监督或弱监督的文本到图像数据集上进行训练而获得的。然而,由于其无监督性质,控制它们的行为以优化人类感知图像质量、图像与文本的对齐或伦理图像生成等下游任务是一项具有挑战性的努力。 最近的研究试图使用强化学习技术对扩散模型进行微调,但这种方法在梯度估计器中具有高方差。针对这一问题,本论文引入了“AlignProp”,一种通过回传奖励梯度在去噪过程中与下游奖励函数对齐的方法。 AlignProp的创新方法缓解了通常与现代文本到图像模型通过反向传播进行内存需求高的问题。它通过微调低秩适配器权重模块和实施梯度检查点来实现这一目标。 本论文评估了AlignProp在微调扩散模型以实现各种目标时的性能,包括图像与文本的语义对齐、美学、图像可压缩性以及生成图像中对象数量的可控性,以及这些目标的组合。结果表明,AlignProp在更少的训练步骤中通过获得更高的奖励优于其他方法。此外,它因其概念上的简单性而备受关注,使其成为根据所关注的可微分奖励函数优化扩散模型的直接选择。 AlignProp方法利用从奖励函数获得的梯度来微调扩散模型,从而提高采样效率和计算效率。进行的实验一致表明AlignProp在优化各种奖励函数方面的有效性,甚至适用于仅通过提示难以定义的任务。未来的潜在研究方向可能涉及将这些原理扩展到基于扩散的语言模型,以改善其与人类反馈的对齐。

Leave a Comment

从2D到3D:通过对齐几何先验增强文本生成一致性

“`html 将2D图像转换为3D对象用于文本到3D生成是一项艰巨的任务。这主要是因为2D扩散模型仅学习了与视图无关的先验,并且在提取时没有对3D空间的理解。这个限制的结果是多视角不一致的问题,即从所有视角看,3D对象是不一致的。例如,如果我们将一个2D图像的立方体提取到3D空间中,模型可能会生成一个在一个视角上完美而在其他视角上失真的立方体。 为了解决几何不一致问题,一组研究人员提出了一种叫做SweetDreamer的新方法,该方法在提取过程中添加了明确定义的3D形状,并将扩散模型中的2D几何先验与之对齐。该模型通过微调2D扩散模型以具备视角感知能力(理解对象在不同视角下的变化)、生成具有规范方向的3D对象的特定视图坐标图来实现这一目标。这种方法非常有效地生成了从所有视角看一致的3D对象。 研究人员意识到3D不一致结果的主要原因是几何不一致,因此他们的目标是赋予2D先验生成从各个视角看时外观相同且具备通用性的3D对象的能力。 研究人员提出的方法利用了包含多样的规范方向和标准化的3D模型的全面3D数据集。从随机角度渲染深度图,并将其转换为规范坐标图。然后,他们微调2D扩散模型以生成与特定视图对齐的坐标图,最终将几何先验与2D扩散对齐。最后,对齐的几何先验可以平滑地集成到各种文本到3D系统中,有效减少不一致性问题并生成多样且高质量的3D内容。 DMTet和NeRF是文本到3D生成中常用的两种3D表示方法。在研究论文中,作者展示了他们的对齐几何先验可以集成到基于DMTet和NeRF的文本到3D流程中,以提高生成的3D对象的质量。这证明了他们方法的广泛适用性,以及提升多种文本到3D系统性能的潜力。 由于缺乏评价文本到3D过程结果的成熟指标,研究人员主要关注评估3D结果的多视角一致性。他们从DreamFusion画廊随机选择了80个提示,并使用每种方法进行文本到3D生成。随后对3D不一致性进行手动检查以报告成功率。研究人员发现,他们的方法显著优于其他方法。在两种流程(DMTet和NeRF)中,他们的成功率都超过85%,而其他方法的得分约为30%。 总之,SweetDreamers方法提供了一种实现文本到3D生成的最新技术的新颖方法。它可以从各种提示中生成不受多视角不一致问题困扰的结果。与其他先前方法相比,它具有更好的性能,研究人员认为他们的工作将开创使用有限的3D数据增强2D扩散先验以实现文本到3D生成的新方向。 “`

Leave a Comment

「搭建大型语言模型与业务之间的桥梁:LLMops」

像OpenAI的GPT-3或其继任者GPT-4这样的LLM的基础在于深度学习,它是人工智能的一个子集,利用三层或更多层的神经网络这些模型通过训练利用广泛的数据集,涵盖了互联网文本的广泛领域通过训练,LLM学会了预测序列中的下一个单词,给定…

Leave a Comment