Press "Enter" to skip to content

419 search results for "引导"

NTU研究人员发布尊尚视频:先导性的文本引导潜隐扩散技术,提升视频超分辨率

视频超分辨率旨在将低质量视频提升到高保真度,面临的挑战是解决现实世界场景中常见的多样化且复杂的退化问题。与以前关注合成或特定相机相关退化不同,该复杂性源于多个未知因素,如降采样、噪声、模糊、闪烁和视频压缩。虽然最近的基于CNN的模型在缓解这些问题方面显示出了希望,但由于有限的生成能力,它们在生成逼真纹理方面仍然存在局限性,导致过度平滑。本研究探讨了利用扩散模型来解决这些限制并增强视频超分辨率的方法。 现实世界视频增强的复杂性要求采用超越传统方法的解决方案,以应对多方面的退化问题。尽管基于CNN的模型在缓解多种退化形式方面展示出实力,但它们的局限性在于生成逼真纹理,往往导致过度平滑的输出结果。扩散模型已成为一个希望的象征,在生成高质量图像和视频方面展示出令人印象深刻的能力。然而,将这些模型应用于视频超分辨率仍然是一个艰巨的挑战,原因是扩散采样中存在固有的随机性,导致低级纹理的时间不连续性和闪烁。 为了应对这些挑战,本研究中的NTU研究人员采用了潜在扩散框架内的局部-全局时间一致性策略。在局部层面上,预训练的放大模型通过额外的时间层进行微调,整合了3D卷积和时间注意力层。这种微调显著提高了局部序列的结构稳定性,减少了纹理闪烁等问题。同时,一个新颖的流引导的循环潜在传播模块在全局层面上操作,通过逐帧传播和推断期间的潜在融合,确保了更长视频的整体稳定性。 图1:AI生成和现实世界视频的超分辨率对比。建议的Upscale-A-Video展示了出色的放大性能。通过使用正确的文本提示,它以更多的视觉逼真度和更精细的细节呈现惊人的效果。 本研究探索了创新的方向,通过引入文本提示来指导纹理生成,使模型能够产生更加逼真和高质量的细节。此外,将噪声注入输入可以增强模型对于重度或未知退化的鲁棒性,从而在恢复和生成之间实现控制。较低的噪声水平优先考虑恢复能力,而较高的噪声水平则鼓励更精细的细节生成,实现保真度和质量之间的权衡。 主要贡献在于制定了一种强大的实际视频超分辨率方法,将局部-全局时间策略结合到隐藏扩散框架中。通过整合时间一致性机制和对噪声水平和文本提示的创新控制,模型在基准测试上表现出卓越的视觉逼真度和时间连贯性,展示出了最新技术水平。

Leave a Comment

斯坦福大学和FAIR Meta的研究人员发布了CHOIS:一种具有突破性的AI方法,可通过语言引导合成逼真的三维人物-物体互动

斯坦福大学和FAIR Meta的研究人员引入了CHOIS来解决在3D场景中生成物体和人类的同步运动的问题。该系统基于稀疏的物体航点、物体和人类的初始状态以及文本描述来运作。它通过在指定的3D环境中为两者产生逼真且可控的动作来控制人类和物体之间的交互。 利用类似AMASS这样的大规模、高质量的动作捕捉数据集,人们对生成式人体运动建模的兴趣日益增加,包括有条件的动作和文本生成。之前的研究使用VAE公式来从文本生成多样化的人体运动,而CHOIS则专注于人体与物体的互动。与现有方法通常集中在手部动作合成不同,CHOIS考虑到在抓取物体之前的全身动作,并根据人体的动作预测物体的运动,为交互式3D场景模拟提供了综合解决方案。 CHOIS解决了在3D环境中合成逼真人类行为的关键需求,这对计算机图形学、具体化人工智能和机器人技术至关重要。CHOIS通过基于语言描述、初始状态和稀疏物体航点来生成同步的人类和物体运动来推动该领域的发展。它解决了现实运动生成、适应环境杂乱以及从语言描述中合成交互等挑战,为多样化的3D场景中可控人体与物体交互提供了综合系统。 该模型使用条件扩散方法根据语言描述、物体几何和初始状态生成同步的物体和人体运动。在采样过程中加入约束以确保逼真的人与物接触。训练阶段使用损失函数来引导模型预测物体变换而无需明确强制接触约束。 CHOIS系统经过与基准模型和消融实验的严格评估,展示了在条件匹配、接触准确性、减少手部与物体的穿透以及脚部漂浮等指标上表现出的卓越性能。在FullBodyManipulation数据集上,物体几何损失增强了模型的能力。CHOIS在3D-FUTURE数据集上的表现超过了基准模型和消融模型,展示了其对新物体的泛化能力。人类感知研究突出了CHOIS与基准模型相比,在与输入文本的对齐和交互质量方面表现更好。定量指标,包括位置和方向误差,衡量了生成结果与真实运动之间的偏差。 总之,CHOIS是一个基于语言描述和稀疏物体航点生成逼真的人与物体交互的系统。该过程在训练过程中考虑到物体几何损失,并在采样过程中使用有效的引导项来增强结果的逼真度。CHOIS学习到的交互模块可以集成到根据语言和3D场景合成长期交互的流水线中。CHOIS在生成与提供的语言描述相一致的逼真人与物体交互方面有显著改进。 未来的研究可以探索通过集成额外的监督,如物体几何损失,来提高生成的物体运动与输入航点的匹配度。研究如何使用更高级的引导项来强制接触约束,可能会得到更逼真的结果。将评估扩展到多样化的数据集和场景将测试CHOIS的泛化能力。进一步的人类感知研究可以提供对生成的交互更深入的洞察。将学习到的交互模块应用于根据3D场景的物体航点生成长期交互也将扩大CHOIS的适用性。

Leave a Comment

加州大学伯克利分校研究人员开发了ALIA:用于细粒度分类任务的自动语言引导图像增强的突破性技术

“`html 精细化图像分类是一项计算机视觉任务,旨在将图像分类为更大类别中的子类别。它涉及对特定的、往往是稀有的动物进行复杂的识别。然而,它们在需要更多广泛的训练数据方面存在问题,导致分类器在适应领域中的不同方面时遇到困难,比如天气条件或地理位置的改变。 数据增强是一种常用的方法,用于使训练数据多样化,在精细分类等专门任务中面临挑战。使用生成模型或传统的翻转或裁剪等方法的方法显示出一定的潜力,但通常需要进行大量的微调或生成对于此类任务不适当的图像。 尽管有各种各样的提出的方法试图解决这些挑战,但该领域仍面临着在创建增强数据集方面的困难,这些数据集代表了多样的变化,同时保持与原始训练数据的视觉一致性和相关性。 一种新颖的方法——自动语言引导图像增强(ALIA)应运而生,以克服这些持续存在的挑战。ALIA利用了与大型视觉模型结合使用的数据集领域的自然语言描述,通过语言引导的图像编辑以自动生成训练数据的多样化变化。与先前的方法不同,ALIA不依赖昂贵的微调或用户提供的提示。相反,它智能地过滤掉最小的编辑和可能破坏与分类相关信息的编辑,提供了一种有希望的解决方案,增强了数据集的多样性,并提高了专门任务(如精细化分类)分类器的泛化能力。 该过程包括: 生成领域描述:利用图像字幕生成和大型语言模型(LLM)将图像上下文总结为不超过十个领域描述。 使用语言引导对图像进行编辑:使用文本条件下的图像编辑技术,创建与这些描述相符的多样化图像。 过滤失败的编辑:使用CLIP进行语义过滤,并使用分类器进行基于置信度的过滤,以删除失败的编辑,确保任务相关信息和视觉一致性的保留。 据作者称,这种方法可以扩展数据集20-100%,同时保持视觉一致性并涵盖更广泛的领域范围。 研究团队进行了大量实验证明了ALIA数据增强方法在专门任务(领域泛化、精细化分类和鸟类分类中的上下文偏见)中的有效性。通过对ResNet50模型进行微调,并使用稳定扩散进行图像编辑,ALIA始终优于传统的增强技术,甚至优于实际数据增加在领域泛化任务中,显示出相对原始数据的17%的改进。在精细分类中,ALIA表现出了竞争性的性能,即使没有领域转移也能保持准确性。ALIA在涉及上下文偏见的功能中,在领域内外的准确性方面表现出色,尽管在图像编辑质量和纯文本修改方面面临挑战。这些实验证明了ALIA在增强数据集多样性和模型性能方面的潜力,尽管在一定程度上依赖于模型质量和图像编辑方法的选择。 总之,作者介绍了ALIA,一种基于大型语言模型和语言引导的图像编辑技术的数据增强先进策略,利用广泛的领域知识。对于已提供的训练集中的领域描述和增强数据,该方法展示了在领域适应、偏见减少甚至在缺乏领域转移的情况下的出色能力。 对于未来的研究,作者认为字幕、大型语言模型和图像编辑的进一步改进将极大地增强该方法的效果和适用性。使用从实际训练数据中得出的结构化提示可能在改善数据集多样性和解决当前方法中遇到的各种限制方面发挥关键作用。这为探索ALIA在更广泛的领域中的应用前景和潜在进展提供了有希望的途径。 “`

Leave a Comment

15个引导性项目,提升你的数据科学技能

简介 在数据科学领域,创新与机遇相遇之处,对熟练专业人员的需求不断飙升。数据科学不仅仅是一种职业,它是解决复杂问题、推动创新和塑造未来的门户。行业每年的增长率超过36%,在数据科学领域的职业不仅有经济回报,也有知识满足感。理论知识和实践经验的结合对于在这个充满活力的环境中取得成功至关重要。在数据科学中的指导项目成为理论和实践之间的桥梁,提供在导师的引导下亲身学习的机会。 指导项目是什么? 在了解指导项目之前,了解一下数据科学职业的吸引力是很重要的。除了复杂的算法和庞大的数据集外,数据科学是解决现实世界挑战、推动行业发展的关键。最近的行业报告显示,数据科学家的中位薪资超过了平均薪资,使其成为一种吸引人的职业选择。行业的快速增长进一步扩大了具备正确技能和专业知识的人的机会。 独立数据科学项目中的挑战 挑战涵盖了管理庞大的数据集、实施复杂的算法和提取有意义的见解。现实世界的数据科学场景要求对技术细节和领域特定细微之处有着细腻的理解。在这里,指导项目的重要性就在于它们提供了一种结构化的方法和专家导师的指导,将困难的旅程转化为有启发性的学习体验。 我们可以帮助您完成的前15个指导项目 以下是我们在我们的BB+计划中涵盖的项目。我们的专家将通过他们卓越的指导帮助您深入了解它们的复杂性。 1. 纽约出租车需求预测 纽约出租车需求预测项目将参与者沉浸在动态的运输分析世界中。借助历史出租车行程数据,参与者深入预测模型来预测纽约市各个位置的出租车需求。该项目磨炼回归分析和时间序列预测技能,并提供关于空间数据可视化的见解。了解和预测出租车需求对于优化车队管理、提高客户服务以及贡献于高效的城市交通系统至关重要。 2. 场景分类挑战 在场景分类挑战中,参与者的任务是开发一个强大的图像分类模型,能够准确地将图像分类到预定义的类别中。利用卷积神经网络(CNNs)和迁移学习等深度学习技术,参与者获得了图像识别方面的实践经验。该项目的目标是构建准确的模型,并在图像分类的背景下理解特征提取、模型训练和验证的细微之处。 3. Pascal VOC图像分割 Pascal VOC图像分割项目向参与者介绍了引人入胜的图像分割世界。利用Pascal VOC数据集,参与者学习如何准确地轮廓绘制图像中的对象。该项目深入探讨语义分割的复杂性,其目标是将图像中的每个像素分配给特定的对象类别。精通图像分割对于计算机视觉、医学图像和自动驾驶等应用至关重要。 4. 场景生成 场景生成将参与者带入生成模型,特别是生成对抗网络(GANs)。其目标是通过生成类似于真实场景的图像来创建逼真的场景。参与者将探索GANs、对抗性训练和潜在空间操作的原理。该项目提高了生成模型的技能,并为创造由AI生成的内容提供了创造性的途径。 5. 大型超市销售预测…

Leave a Comment

在文本引导的图像和三维场景编辑中解锁精度:与“Watch Your Steps”相遇

神经辐射场(NeRFs)因其能够创建准确而直观的可视化而越来越受欢迎。这导致了改变图像的NeRFs的想法。去噪扩散模型也能够从文本描述中产生出色的图像,并因其有效性而在图像编辑中流行起来。尽管扩散式图片编辑技术有着很大的潜力,但目前还明显缺乏一种自动化的方法来识别需要修改的区域。目前使用的方法要么依赖于用户提供的掩码,要么以嘈杂输入中找到的全局信息作为起点,要么依赖于输入数据来确定去噪过程的进行方式。 然而,这些方法通常有过度编辑的倾向。即使是NeRF编辑的IN2N应用程序也会遇到过度场景编辑的问题。与IP2P类似,DiffEdit使用由字幕引导的噪声预测来定位编辑区域,尽管这种方法较慢且效率较低。一组研究人员提出了一种独特的方法,可以根据特定的文本指令识别和定位图像中需要更改的精确区域。这种方法被称为Watch Your Steps,它支持通过文本指令进行本地图像和场景编辑。 该团队通过利用InstructPix2Pix (IP2P)的能力,揭示了IP2P在有指令和无指令情况下所做预测的关键区别。这种差异被称为相关性图。相关性图基本上充当了一张路线图,说明更改特定像素的重要性以达到所需的修改。它作为进行更改的指南,确保只更改必要的像素,而保留不必要的像素。 该团队还表示,相关性图不仅对基本图像编辑有用,而且在3D场景的文本引导修改方面,尤其是由神经辐射场建模的场景,它们甚至提高了准确性。为此,利用与不同训练视图相关的相关性图,训练了一个相关性场。通过这个相关性场有效地定义了应该改变的3D区域,因此,该过程涉及从建立的相关性场中渲染相关性图,以指导迭代地更新训练视图。 在评估中,发现这种方法在神经辐射场(NeRF)编辑作业以及图像编辑方面取得了无与伦比的性能水平。这展示了这种方法在克服图像和场景处理中遇到的困难方面的价值和优秀性。

Leave a Comment

PlayHT团队将情感概念引入生成声音AI的AI模型:这将使您能够通过特定情感来控制和引导语音生成

语音识别是自然语言处理领域中最近开发的技术之一。研究科学家还为文本到语音生成的AI模型开发了大型语言模型。很明显,AI在语音质量、表情、人类行为等方面可以达到与人类相似的结果。但是尽管如此,这些模型仍然存在问题。这些模型在语言多样性方面较少。在语音识别、情感等方面也存在一些问题。许多研究人员意识到了这些问题,并发现这是由于模型使用的数据集较小造成的。 改进工作已经开始,PlayHT团队推出了PlayHT2.0作为这个案例研究的解决方案。这个模型的主要优点是它使用了多种语言并处理了大量的数据集。这也增加了模型的大小。NLP中的Transformers也在实施这个模型中扮演了重要角色。该模型处理给定的转录并预测声音。这经历了一个将文本转换为语音的过程,称为标记化。这涉及将简化的代码转换为声波,以生成人类语音。 该模型具有巨大的对话能力,可以像正常人一样进行对话,并带有一些情感。这些通过AI聊天机器人提供的技术经常被许多跨国公司用于在线呼叫和研讨会。PlayHT2.0模型还通过其中使用的优化技术改进了语音质量。它还可以复制出完全相同的声音。由于模型使用的数据集非常大,该模型在保留原始语音的同时也可以说出其他语言。模型的训练过程经历了大量的epochs和不同的超参数。这导致模型在语音识别技术中表现出各种情感。 该模型仍在不断改进中。研究科学家仍在致力于改进情感。提示工程师和许多研究人员还发现,该模型在未来几周内可以通过速度、准确度和良好的F1分数进行更新。

Leave a Comment

人工智能框架在新环境中通过人类引导,承诺更快的机器人学习

在智能家居的未来时代,购买一个机器人来简化家庭任务将不再是罕见的然而,当这些自动化助手无法执行简单的任务时,可能会感到沮丧安迪·彭(Andi Peng)是麻省理工学院电气工程与计算机科学系的一名学者,她和她的团队正在开辟一条道路…

Leave a Comment

HuggingFace Research推出LEDITS:基于DDPM反演和增强的语义引导的真实图像编辑的下一个进化阶段

由于文本引导扩散模型在图片创作中展现出的出色逼真度和多样性,人们对此产生了极大的兴趣。随着大规模模型的引入,用户在创建照片时拥有了无与伦比的创作灵活性。因此,一些正在进行的研究项目专注于探索如何使用这些强大的模型进行图片操作。最近的研究进展展示了使用纯文本扩散技术进行基于文本的图片操作。其他研究人员最近提出了语义引导(SEGA)的概念用于扩散模型。 SEGA展示了先进的图片组合和编辑技能,并且在当前生成过程中无需外部监督或计算。SEGA相关的概念向量被证明是可靠、独立、灵活且单调缩放的。其他研究还探讨了基于语义理解创建图片的不同方法,例如Prompt-to-Prompt,它使用模型的交叉注意力层中的语义数据将像素与文本提示符令牌连接起来。尽管SEGA不需要基于令牌的条件,并且允许多种语义改变的组合,但是在交叉注意力图上的操作可以对生成的图片产生多样化的改变。 现代技术必须用于反转给定图片,以进行基于文本引导的真实图片编辑,这是一个重大障碍。为了实现这一点,需要找到一系列噪声向量,当作为扩散过程的输入时,可以产生输入图片。在大多数基于扩散的编辑研究中,使用了一种从单一噪声图到生成图片的确定性映射技术,称为去噪扩散隐式模型(DDIM)。其他研究人员提出了一种针对去噪扩散概率模型(DDPM)方案的反转方法。 对于DDPM方案中用于扩散生成过程的噪声图,他们提出了一种计算噪声图的新方法,使其与传统DDPM采样中使用的噪声图有所不同,具有更大的方差,并且在时间步长上更相关。与DDIM基于反转的技术相比,友好编辑的DDPM反转在基于文本的编辑任务上展示出了最先进的结果(单独使用或与其他编辑方法结合),并且可以为每个输入图片和文本生成多种输出。在这篇综述中,来自HuggingFace的研究人员想要随意研究SEGA和DDPM反转方法或LEDITS的配对和集成。 在LEDITS中,语义引导扩散生成机制进行了修改。这个更新将SEGA方法论扩展到了真实照片上。它提供了一种结合了两种方法同时编辑能力的编辑策略,并且展示了使用尖端技术的竞争性定性结果。他们还提供了一个HuggingFace演示以及相关代码。

Leave a Comment

使用自然语言处理(NLP)和引导法探索性别平等的研究

介绍 NLP(自然语言处理)可以帮助我们理解大量的文本数据。不需要手动阅读大量文档,我们可以利用这些技术加快理解速度,快速获得主要信息。在这篇博文中,我们将深入探讨如何使用Python中的pandas数据框和NLP工具,通过使用Elicit,对在阿富汗进行性别平等研究时人们的写作内容有一个了解。这些见解可能有助于我们理解在过去几十年中,在一个被认为是对女性或女孩来说最困难的地方之一的国家,为促进性别平等所做的工作和未能取得的成果(世界经济论坛,2023年)。 学习目标 掌握处理CSV文件中的文本分析。 了解如何在Python中进行自然语言处理。 开发有效数据可视化的沟通技巧。 深入了解阿富汗性别平等研究的演变。 本文是数据科学博文马拉松的一部分。 使用Elicit进行文献综述 为了生成底层数据,我使用了Elicit,一款用于文献综述的AI工具(Elicit)。我让这个工具生成与问题“为什么阿富汗的性别平等失败了?”相关的论文列表。然后,我以CSV格式下载了结果列表(我考虑了150多篇论文的随机数量)。这些数据是什么样的?让我们来看一看! 在Python中分析来自Elicit的CSV数据 我们首先将CSV文件读入pandas数据框中: import pandas as pd #识别路径和CSV文件 file_path = ‘./elicit.csv’ #读入CSV文件 df = pd.read_csv(file_path) #CSV的形状…

Leave a Comment

Google AI发布Imagen Editor和EditBench,以改进和评估文本引导图像修复技术

最近,人们对文本到图像转换器产生了浓厚的兴趣。这些生成模型非常有用,尽管它们有时在第一次尝试时会产生错误的结果,特别是对于具有更特定创意或设计要求的客户。文本引导的图像编辑可以通过允许交互式修正来改进图像创建过程。生成符合文本提示并与输入图像兼容的修改是一个重大难题。Good的研究人员开发了Imgen Editor,这是一个使用文本指令进行修复的级联扩散模型。 Imgen Editor可以通过在训练期间使用对象检测器来提出修复掩模,从而准确地表示文本提示的修改。Imgen Editor可以通过将级联管道与原始高分辨率图像相结合,捕捉输入图像中最细微的特征。为了提高定量和定性评估,谷歌研究人员提供了EditBench,这是一个标准化的文本引导图像修复基准。EditBench通过检查真实和合成图像中的对象、属性和场景来分析修复修正。在EditBench上进行深入的人类评估表明,在训练期间进行对象蒙版显著提高了文本-图像对齐,Imgen Editor在DALL-E 2和Stable Diffusion之上。总的来说,这些模型比文本渲染更擅长对象渲染,比计数/形状属性更擅长处理材料/颜色/大小属性。 图像编辑器 要修改图像,请使用Imagen Editor,这是一种专门针对Imagen进行优化的基于扩散的模型。它致力于更准确地表示语言输入、粒度指令和高质量输出。Imagen Editor使用图像修改、二进制掩模以识别修改区域和文本提示这三个输入来确定输出样本。 图像编辑器允许用户根据掩模和一组指令对图像的某些区域进行有针对性的更改。该模型考虑用户的目标并对图像进行逼真的调整。Imagen Editor是一种文本引导的图像编辑器,它将广泛的语言表示与粒度控制混合在一起,以生成高质量的结果。Imagen Editor是Imagen的增强版,它使用级联扩散模型来微调文本引导的图像修复。使用三个卷积下采样图像编码器,Imagen Editor为每个扩散阶段提供更多的图像和掩模上下文。 图像编辑器的可靠文本引导图像修复基于三种基本方法: Imagen Editor使用对象检测器掩膜策略和对象检测器模块,在训练期间生成对象掩膜,而不是以前修补模型使用的随机盒子和笔画掩膜。 Imagen Editor通过在训练和推理期间要求输入图像和掩模的全分辨率、通道级串联来改进高分辨率编辑。 为了将数据引向特定的条件,即文本提示,研究人员在推理中使用无分类器引导(CFG)。CFG在受条件和未受条件的模型预测之间插值,以实现文本引导的图像修复的高精度。 使生成的输出符合文本提示是文本引导的图像修复中的主要难点。 EditBench EditBench使用240张照片创建了新的文本引导图像修复标准。每个图像都与一个掩膜相关联,该掩膜表示修补过程中将要更改的区域。为了帮助用户指定修改,研究人员为每个图像-掩膜对提供了三个文本提示。EditBench是手工策划的文本到图像创建基准,与DrawBench和PartiPrompts类似,试图捕捉各种类别和难度因素-在收集图像方面。包括预先存在的计算机视觉数据集中的自然照片和EditBench中包含的文本到图像模型生成的合成图像。…

Leave a Comment

Imagen Editor和EditBench:推进和评估文本引导图像修复

Google Research的研究工程师Su Wang和Ceslee Montgomery发布了文章: 在过去的几年中,文本到图像生成研究取得了突破性进展(特别是Imagen、Parti、DALL-E 2等),自然地渗透到相关主题中。特别是,文本引导的图像编辑(TGIE)是一项实际任务,它涉及编辑生成和拍摄的视觉效果,而不是完全重做它们。快速、自动化和可控的编辑是在重新创建视觉效果耗费时间或不可行的情况下提供方便解决方案的一种方式(例如,在度假照片中调整物体或完善从头开始生成的可爱小狗的细节)。此外,TGIE代表了改进基础模型自身培训的重大机会。多模型需要多样化的数据来适当地进行训练,而TGIE编辑可以实现高质量和可扩展的合成数据的生成和重新组合,这些数据最重要的是可以提供沿任何给定轴优化训练数据分布的方法。 在2023 CVPR上,我们将介绍Imagen Editor和EditBench:推进和评估文本引导的图像修复,其中Imagen Editor是掩蔽修补任务的最先进解决方案,即当用户提供文本说明和覆盖层或“掩蔽”(通常在绘图类型界面内生成)指示他们希望修改的图像区域时。我们还介绍了EditBench,一种评估图像编辑模型质量的方法。EditBench超越了通常使用的粗粒度“这张图像是否与这个文本匹配”的方法,深入到各种类型的属性、对象和场景中,以更细粒度的方式了解模型性能。特别是,它强调了图像-文本对齐的准确性,而不失去对图像质量的关注。 给定图像、用户定义的掩蔽和文本提示,Imagen Editor对指定区域进行本地化编辑。该模型有意义地融合了用户的意图并执行了逼真的编辑。 Imagen Editor Imagen Editor是在Imagen上进行微调的扩散模型,用于编辑。它针对改进语言输入、细粒度控制和高保真输出的表示。Imagen Editor从用户处获得三个输入:1)要编辑的图像,2)一个二进制掩蔽来指定编辑区域,以及3)一个文本提示-所有三个输入都引导输出样本。 Imagen Editor依赖于三个核心技术,以实现高质量的文本引导图像修复。首先,与先前的修复模型(如Palette、Context Attention、Gated Convolution)应用随机框和笔画蒙版不同,Imagen Editor采用了对象检测器掩蔽策略和对象检测器模块,在训练期间生成对象掩蔽。对象掩蔽基于检测到的对象而不是随机补丁,并允许在编辑文本提示和掩蔽区域之间进行更有原则的对齐。从经验上讲,该方法有助于模型抵制文本提示在掩蔽区域很小或仅部分覆盖对象(例如CogView2)时被忽略的普遍问题。 随机蒙版(左)经常捕捉背景或与对象边界相交,定义可以仅通过图像上下文合理修补的区域。对象掩蔽(右)更难以仅从图像上下文中修补,鼓励模型更多地依赖于训练期间的文本输入。 接下来,在训练和推理过程中,Imagen Editor通过对输入图像和掩膜的全分辨率(本文中为1024×1024)进行逐通道连接(类似于SR3、Palette和GLIDE),提高了高分辨率编辑的能力。对于基础扩散64×64模型和64×64→256×256超分辨率模型,我们应用参数化下采样卷积(例如,带步长的卷积),经实验证明这对于高保真度至关重要。…

Leave a Comment

特雷·杜瓦格,Pathlight的首席技术官兼联合创始人–访谈系列

Trey Doig是Pathlight的联合创始人和首席技术官Trey在科技行业拥有超过十年的经验,在IBM、Creative Commons和Yelp公司担任工程师Trey是Yelp预订的首席工程师,负责将SeatMe功能整合到Yelp.com上Trey还领导了SeatMe网页应用程序的开发[…]

Leave a Comment

公开演讲的5个最佳AI工具(2023年12月)

在人工智能领域,AI工具在公共演讲中的应用标志着一项重大进展这些工具为提升演讲技巧、解决演讲者在各个层次上面临的常见挑战提供了实用解决方案通过利用AI技术,这些工具能够提供有价值的洞察力,帮助演讲者改善语言表达、组织内容和吸引观众我们在这方面的探索[…]

Leave a Comment

安全转换与ChatGPT插件的互动指南

介绍 曾经是静态内容的领域,现在通过ChatGPT插件的注入,ChatGPT正在经历一场革命性的转变。这些插件就像是虚拟的钥匙,解锁了数字故事讲述的未知领域,重塑了用户参与度。在本指南中,我们将踏上探索ChatGPT插件无缝整合到博客世界的旅程,揭示它们在培养创造力、建立社区和应对不断发展的领域中的潜力。 学习目标 了解启用和安装ChatGPT插件的步骤,增强语言模型的功能。 了解如何验证ChatGPT插件的激活状态,并监控其性能,以实现无缝的用户体验。 探索将ChatGPT插件集成到应用程序中的简化指南,包括获取API密钥和安装必要的软件包。 检查在医疗、金融和制造业等实际应用中,展示ChatGPT插件对效率和决策的影响。 本文作为 数据科学博文马拉松的一部分发表。 <p进入chatgpt插件的世界,就像为你的对话工具箱增加了个人化的触感一样。这些模块化扩展作为伴侣,让用户能够自定义交互并实现特定的博客目标。这不仅仅是关于生成内容,而是为你的受众创造独特而动态的体验。 ChatGPT插件的变革性作用 <p深入探究chatgpt插件的变革性作用揭示了它们对用户参与度的深远影响。尽管chatgpt以其独立形式提供了令人印象深刻的自然语言处理能力,但插件通过引入专门的功能,提升了用户体验。这些功能包括触发式回复、上下文感知的交互和通过外部api实时检索信息。 <p这个变革性动态标志着从静态对话模型到多功能适应性工具的演变,为用户在与chatgpt交互和利用中开启了新的维度。随着我们深入了解这些插件的具体内容,它们重塑对话人工智能领域的潜力变得越来越明显。 插件影响的导航 <p我们的探索密切研究了这些多功能工具的深远意义和稳定性。我们深入探讨了chatgpt插件的重要性,探索其在塑造和丰富用户交互中的关键作用。 <p本节详细研究了chatgpt插件的稳定性,提供了关于它们在chatgpt框架内的可靠性和稳定性的见解。通过导航这些插件的影响,我们旨在全面了解它们的重要性以及在各种对话场景中的稳定性。 了解限制和技术 <p让我们深入了解实际情况。稳定性和限制性是重要的考虑因素。这些插件在更广泛的chatgpt框架内是如何操作的呢?这是关于理解细微差别、优化体验和做出明智决策的问题。你可以同时使用多少个插件?让我们探索有效自定义的实际考虑因素。 <p引人入胜的是gpt-4对chatgpt插件的影响。作为基础模型的下一个迭代版本,gpt-4的进步对插件的能力和性能产生影响。本研究提供了对chatgpt插件不断发展的领域的一瞥,展示了技术发展如何塑造它们的功能。 <p通过全面了解这些限制和技术细节,用户可以在chatgpt插件的领域中做出明智决策并优化使用。 安全和监控 <p安全至关重要。我们深入研究了与chatgpt插件相关的安全考虑,解决了关注点,并制定了安全交互措施。常见的关于安全的问题以直接的faq形式进行了回答,提供了明确的解释,并建立了对安全使用的信心。 <p以chatgpt插件安全为重点的常见问题解答(faqs)。这些常见问题解答涵盖了用户关于在chatgpt体验中整合插件的安全性和可靠性方面的疑问。这些常见问题解答为寻求关于安全方面的澄清的用户提供了宝贵的资源。 <p这个逐步验证指南赋予用户确认插件功能的能力,确保它们积极地参与到对话中。通过强调安全考虑并提供有效监控工具,本节为用户提供了在chatgpt插件世界中安全而自信地导航所需的知识。 费用、访问和安装 提升您的博客体验需要一定的费用支出。用户友好的逐步安装指南确保了较低的技术门槛,使技术水平有限的用户也能轻松使用。了解财务方面和插件集成的实际步骤,使用户能够做出明智的决策。了解使用ChatGPT插件所涉及的成本是至关重要的。当将这些插件整合到ChatGPT体验中时,用户可以清楚地了解潜在费用。这样的理解有助于与个人需求和预算相匹配选择正确的插件。…

Leave a Comment

天空中的馅饼:无人机初创公司送上披萨、药品和激动的一切

Zipline 不只是一家顶尖无人机初创公司。 自 2011 年成立以来,总部位于旧金山的公司已在七个国家完成了 80 万多次交付。最近,它还为西雅图的 Pagliacci Pizza、维生素和补充剂巨头 GNC,以及像 Intermountain Health、OhioHealth 和 Michigan Medicine 这样的大型卫生系统提供了服务。 Zipline 开发了它的无人机 – 它们现在已经飞行了超过 5500 万英里 – 用于使用 NVIDIA…

Leave a Comment

亚利桑那州立大学的这项人工智能研究揭示了ECLIPSE:一种新颖的对比学习策略,以改善文本到图像的非扩散先验

扩散模型在给定文本提示时已被证明在生成高质量照片方面非常成功。这种文本到图片(T2I)生成的范例已成功用于一些下游应用,包括深度驱动的图片生成以及主体/分割识别。两个受欢迎的基于文本条件的扩散模型,CLIP模型和潜在扩散模型(LDM),通常被称为稳定扩散,对这些进展至关重要。LDM在研究中以开源软件的形式免费提供,因此得到了广泛熟知。而对于未CLIP模型,却鲜有关注。这两种模型类型的基本目标都是根据文本提示训练扩散模型。 与未CLIP模型不同,LDM只有一个文本到图片扩散模型,而不需要文本到图片先验和扩散图片解码器。这两个模型家族都在图像的矢量量化潜空间内运作。因为未CLIP模型在多个组合基准测试中通常优于其他SOTA模型,如T2I-CompBench和HRS-Benchmark,所以研究团队在本文中将重点放在它们身上。这些T2I模型通常有很多参数,需要优秀的图像-文本对进行训练。与LDM相比,如DALL-E-2、卡洛和康定斯基等未CLIP模型由于它们的早期模块,其总模型大小要大得多(≥ 2B),约有10亿参数。 按照顺序,这些未CLIP模型的训练数据分别为250M、115M和177M个图像-文本对。因此,仍然存在两个重要问题:1)使用文本到图片先验能否提高文本组合的SOTA性能?2)或者模型大小的增加才是关键因素?通过增加参数和数据效率,研究团队旨在改善他们对T2I先验的认识,并在目前的公式上作出重大改进。先验的T2I目标是在扩散过程的每个时间步骤中直接估计无噪声图像嵌入,正如先前的研究所建议的那样,它们也是扩散模型。为了研究这个先前的传播过程,研究团队进行了实证调查。 图1比较了SOTA文本到图片模型在三个组合任务(颜色、形状和纹理)上的平均性能以及总参数数量。ECLIPSE只需要很少的训练数据,但却能产生更好的结果,并且使用较少的参数。所展示的ECLIPSE使用康定斯基解码器,通过仅使用500万个图像-文本对进行训练,使用约3300万个参数训练了一个T2I先验模型。 研究团队发现了扩散过程对性能的轻微负面影响,并且对产生正确图片没有影响。此外,由于扩散模型收敛速度较慢,训练它们需要显著的GPU小时或天数。因此,在本研究中,非扩散模型作为替代方法。由于缺乏无分类器引导,这种方法可能会限制组合性的可能性,但却大大提高了参数效率并减少了对数据的依赖。 在这项研究中,亚利桑那州立大学的研究团队提出了一种独特的对比学习技术,称为ECLIPSE,来增强T2I非扩散先验并克服上述缺点。研究团队优化了传统方法,即通过优化证据下界(ELBO)产生图像嵌入来从所提供的文本嵌入生成图片。研究团队建议使用预训练的视觉语言模型的语义对齐(文本和图片之间)特征来监督早期训练。研究团队使用相对较少的图像-文本对(0.34% – 8.69%)使用ECLIPSE训练紧凑的(97%更小)的非扩散先验模型(具有3300万个参数)。研究团队为未CLIP扩散图片解码器的变体(卡洛和康定斯基)引入了ECLIPSE训练的先验。ECLIPSE训练的先验模型优于拥有10亿参数的对应版本,并且优于基准先验学习算法。他们的研究结果表明了一条可能的T2I生成模型的路径,这种模型在不需要很多参数或数据的情况下提高了组合性。 如图1所示,它们的总参数和数据需求显著降低,并通过增加T2I在unCLIP家族之前取得了与相似参数模型相媲美的性能。贡献:1)在unCLIP框架下,研究团队提供了ECLIPSE,这是首个利用对比学习进行文本到图像先验的尝试。2)通过全面的实验,研究团队证明了ECLIPSE在资源受限环境中优于基线先验的优越性。3)值得注意的是,ECLIPSE先验仅需使用训练数据的2.8%和模型参数的3.3%即可获得与更大模型相当的性能。4)研究团队还研究了当前T2I扩散先验的缺点,并提供了实证观察结果。

Leave a Comment

字节跳动研究人员推出“ImageDream”:一种创新的图像提示和多视图扩散模型,用于三维物体生成

正如谚语所说,“一张图片胜过千言万语”,将图像作为3D制作的第二种方式相对于仅使用文本的系统具有重大优势。图像主要提供了详细、丰富的视觉信息,而语言可能只能部分或无法完全描述。例如,一张图片可以清晰、立即地表达细微的特征,如纹理、颜色和空间连接,但是词语描述可能需要帮助才能完全表示相同的细节级别或使用非常长的解释。因为系统可以直接参考实际的视觉线索,而不是解释各种复杂性和主观性的书面描述,这种视觉特定性有助于产生更准确、更详细的3D模型。 此外,用户可以更简单、直接地通过使用视觉方式来解释其预期结果,特别适用于那些难以用文字表达他们的想象的人。这种多模式方法可以满足更广泛的创意和实际应用需求,将文本的情境深度与视觉数据的丰富性结合起来,提供更可靠、用户友好和高效的3D制作过程。然而,使用照片作为3D物体开发的替代方式也存在一些困难。与文本相比,图像具有更多的元素,如颜色、纹理和空间连接,这使得它们更难以使用单一编码器(例如CLIP)进行正确分析和理解。 此外,物体在光线、形状或自遮挡方面的显著变化可能导致视图合成更精确、一致,从而提供不完整或模糊的3D模型。由于图像处理的复杂性,需要采用先进的、计算密集的技术有效解码视觉信息并确保在多个视角下外观一致。研究人员使用各种扩散模型方法将2D项目图像转化为3D模型,如Zero123和其他最新的努力。图像独立系统的一个缺点是,虽然合成视图看起来很好,但重建的模型有时需要更高的几何正确性和复杂的纹理,特别是关于物体的后向视角。这个问题的主要原因是生成或合成的视角之间存在较大的几何差异。 因此,在重建过程中,非匹配像素被平均在最终的3D模型中,导致纹理模糊和几何圆滑。从本质上讲,图像条件的3D生成是一个在文本条件的生成相比下具有更严格限制的优化问题。由于只有有限数量的3D数据可用,使用精确特征优化3D模型变得更加困难,因为优化过程往往会偏离训练分布。例如,如果训练数据集包含各种风格的马,仅通过文本描述创建一匹马可能会产生详细的模型。然而,当图像指定特定的毛发特征、形状和纹理时,新视角纹理的生成可能很容易偏离训练分布。 为了解决这些问题,字节跳动的研究团队在本研究中提出了ImageDream。研究团队提出了一个多级图像提示控制器,可以轻松地与当前架构整合在一起,同时考虑到不同对象实例之间的规范相机协调。特别是,根据规范相机协调,生成的图像必须呈现物体的居中前视图,并使用默认的相机设置(恒等旋转和零平移)。这使得将输入图像的差异转化为三维更加简单。通过提供分层控制,多级控制器通过将扩散模型从图像输入引导到每个架构块,简化了信息传递过程。 图1:凭借一张照片,创新框架ImageDream可以从任意角度生成高质量的3D模型。与先前的SoTA(如Magic123)相比,它显著提升了3D几何质量。更重要的是,与MVDream相比,它保留了从创建的图像提示中获得的优秀文本图像对齐。下方显示了使用不同技术创建的物品的八个视图,并显示了使用ImageDream生成的模型绘制的匹配法线图。 与仅基于文本条件的模型MVDream相比,ImageDream在从给定图像中生成具有正确几何形状的对象方面表现卓越,如图1所示。这使用户能够利用成熟的图像生成模型来改进图像与文本的对齐。在几何形状和纹理质量方面,ImageDream优于当前最先进的零射单图像3D模型生成器Magic123。ImageDream超越了先前的最先进技术,通过实验部分的全面评估,包括定量评估和用户测试中的定性比较,这一点得到了证明。

Leave a Comment

迎接NexusRaven-V2:一款13B LLM在零转移功能调用方面优于GPT-4,并具有将自然语言指令转化为可执行代码的能力

LLMs可以通过在与代码相关的数据集上进行微调来生成代码片段,包括函数调用。这些模型可以根据提供的输入来提供关于函数调用的建议或生成代码,通过提供上下文或提示来提供关于函数调用的建议或生成代码。语言模型可用于自然语言理解代码相关的查询或指令。开发者可以输入问题或描述,模型可以解释这些内容并提供相关的函数调用或代码段作为答案。 LLMs可以通过根据上下文或部分代码提供的内容提出函数调用或建议相关的函数来协助完成代码。这有助于开发者更快地编写更准确的代码。LLMs可以根据给定的任务或问题描述引导合适的API或过程,以帮助开发者找到其代码中需要调用的正确函数。将LLMs集成到开发环境中可为开发者提供实时协助,指导他们进行函数调用、参数类型或潜在错误的处理。 Nexusflow的研究人员提出了一个开源的LLM模型,NexusRaven-V2。它可以将自然语言指令转换为可使用工具的可执行代码。OpenAI Assistant API是实现协助工具和代理程序使用软件工具的关键。NexusRaven-V2旨在推进合作伙伴和代理程序的开源模型。 在涉及嵌套和复合函数的人工生成用例中,NexusRaven-V2的函数调用成功率比GPT-4高出最多7%。NexusRaven经过了针对Meta的CodeLlama-13 B指令进行的调整。它使用Nexusflow的管道,仅从开源代码语料库中来源,而不使用专有的LLM。对于社区开发者和企业来说,它具有商业上的宽容度。 观察到,在我们的人为策划基准测试中,NexusRaven-V2的函数调用成功率平均比最新的GPT-4模型高出4%。值得注意的是,在4个需要嵌套和复合函数调用的挑战性任务中,NexusRaven-V2表现出比GPT-4更强大的适应性,能够处理开发者对函数描述的差异。 该团队发布了开源的工具,使用户能够无缝替换主流专有的函数调用API,并在其软件工作流程中使用NexusRaven-V2。他们还提供在线的演示和Colab笔记本,用于入门和集成演示。他们公开了评估基准测试Nexus-Function-Calling并建立了一个Huggingface 排行榜,其中包含大量真实的人工策划的函数调用示例,涵盖了各种函数调用用例和难题。 在未来,函数调用LLMs可以受益于教育环境,为学习者提供实时协助,指导他们正确调用函数,从而帮助他们理解编程概念。

Leave a Comment

Can't find what you're looking for? Try refining your search: