Press "Enter" to skip to content

四海吧 Posts

这项AI研究提出了SMPLer-X:一种用于从单目输入实现3D/4D人体动作捕捉的通用基础模型

动画、游戏和时尚领域可能都受益于从单目照片或视频中表达人类姿势和形状的尖端领域- 表情人类姿势和形状的估计(EHPS)。为了准确地描绘复杂的人体解剖学、面部和手部,这项工作通常使用参数化人体模型(如SMPL-X)。近年来,我们见证了多个独特数据集的涌现,为研究捕捉环境、位置分布、身体可见性和摄像机视角等主题提供了额外的机会。然而,最先进的方法仍然受限于少数这些数据集,导致在各种场景中出现性能瓶颈,阻碍对未知领域的泛化。 他们的目标是通过对现有数据集进行深入分析,为EHPS建立可靠且具有全球适用性的模型。为了做到这一点,他们创建了第一个系统的EHPS基准测试,并根据四个关键标准评估了它们的表现。这证明了基准测试之间的显著不一致性,凸显了EHPS整体领域的复杂性,并呼吁通过数据扩展来解决不同场景之间的领域差距。这项深入分析突出了重新评估现有数据集在EHPS中使用的必要性,并主张切换到提供更好泛化能力的更激进替代品。 他们的研究强调了利用多个数据集从它们的互补性中受益的价值,还深入研究了影响这些数据集可转移性的相关因素。他们的研究为未来数据集收集提供了有益的建议:1)根据他们的观察,数据集不需要特别庞大,只要包含超过10万个实例就可以受益。2)如果无法采集野外(包括室外)数据集,各种室内场景是一个很好的选择。3)合成数据集变得越来越有效,同时也有可检测的领域差距。4)在缺乏SMPL-X注释的情况下,伪-SMPL-X标签是有帮助的。 根据基准测试的信息,南洋理工大学、商汤研究院、上海人工智能实验室、东京大学和国际数字经济学院(IDEA)的研究人员创建了SMPLer-X。这个通用基础模型使用各种数据集进行训练,在各种情境中提供了出色平衡的结果。这项工作展示了大规模选择数据的能力。他们以极简设计的理念开发了SMPLer-X,与算法研究的作品相脱离:SMPLer-X具有非常基本的架构,只包含EHPS最关键的组件。与对算法元素的严格分析相对,SMPLer-X旨在允许大规模数据和参数扩展,并成为未来领域研究的基础。 这是一种全面的模型,优于通过使用各种数据组合和模型大小进行实验的所有基准结果,并挑战了受限制的数据集训练的广泛做法。他们的基础模型将五个主要基准测试(AGORA、UBody、EgoBody、3DPW和EHF)的平均主要误差从超过110mm降低到70mm以下,并展示了优秀的泛化能力,顺利适应了新的场景,如RenBody和ARCTIC。此外,他们证明了优化他们的通用基础模型来发展成为特定领域专家的有效性,在全面性能方面表现出色。 他们特别采用了相同的数据选择方法,使他们的专业模型在EgoBody、UBody和EHF上实现了SOTA性能,成为首个在AGORA榜单上实现107.2mm NMVE(提高了11.0%)并刷新纪录的模型。他们提供了三个独特的贡献。1)他们利用广泛的EHPS数据集构建了第一个系统性的基准测试,为扩大训练数据规模以实现可靠和可转移的EHPS提供了重要指导。2)他们研究了数据和模型的扩展,构建了一个通用的基础模型,可以在许多场景下提供平衡的结果,并有效地扩展到未开发的数据集。3)他们通过扩展数据选择技术,优化了基础模型,使其成为跨多个基准测试的强大专家。

Leave a Comment

IBM宣布推出基于人工智能的威胁检测与响应服务,为改变网络安全提供革命性解决方案

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/artificial-intelligence-ai-research-robot-cyborg-development-1024×683.jpg”/><img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/10/artificial-intelligence-ai-research-robot-cyborg-development-150×150.jpg”/><p>在不断演变的网络安全威胁中,组织面临着一个日益严峻的挑战——海量的安全警报。安全团队发现自己在攻击者面前处于劣势,淹没在漏洞、警告和安全工具的海啸中。这个问题导致了反应时间的延迟,对关键威胁的错过,以及对可扩展和高效解决方案的急迫需求。</p><p>现有的解决方案虽然在一定程度上缓解了这个问题,但往往必须应对现代网络安全威胁的规模和复杂性。作为全球领先的技术公司,IBM推出了一项突破性解决方案——威胁检测与响应服务。</p><p>IBM的TDR服务利用先进的人工智能技术,不断从真实客户数据中学习,包括安全分析师的响应。这个智能系统能够自动升级或关闭高达85%的警报,使安全团队能够专注于最关键的威胁。通过评估和自动推荐最有效的检测规则,TDR服务将低价值的 SIEM 警报减少了45%,并提高了79%的高价值警报,需要立即关注。</p><p>此外,组织现在可以通过MITRE ATT&CK评估来评估与业界同行的安全状况。TDR服务应用AI技术对多个检测工具和策略进行协调,提供了一个全面的视角,以便在ATT&CK框架内检测威胁和评估漏洞。这个框架确保了一种主动和适应性的安全方法。</p><p>IBM的TDR服务的一大特点是无缝的端到端集成。它采用开放的API方法,能够快速与客户现有的安全资产集成,无论是在现场还是在云端。这个共同管理的门户提供了一个统一的企业视图,精确的修复能力,并在IT和OT领域执行安全政策。</p><p>此外,组织可以依靠IBM全球网络安全服务专业人员的全球支持。</p><p>总之,IBM的威胁检测与响应服务是解决现代网络安全不断升级挑战的一大进步。它的人工智能驱动能力、MITRE ATT&CK评估、无缝集成和全球支持提供了一种整体高效的解决方案,帮助组织加强安全防御并在不断变化的威胁面前保持领先。在网络安全风险和影响前所未有提高的时代,IBM的TDR服务为希望保护数字资产和声誉的组织提供了希望。</p>

Leave a Comment

从专家到通用助手:深入探讨视觉与语言中多模态基础模型的演变

计算机视觉社区面临着各种各样的挑战。在预训练时代,许多研讨会论文讨论了建立多功能视觉工具的全面框架,用以引入多样化的视觉工具。在这个时期占主导地位的方法是在大量相关问题的数据上进行预训练,然后将其转移到与同一问题类型相关的各种实际场景中,通常使用零或少样本技术。 最近微软的一项研究深入探究了具有视觉和视觉语言功能的多模态基础模型的历史和发展,特别强调了从专门化助手到通用助手的转变。 根据他们的论文,主要讨论了三种初始策略的主要类别: 标签监督:标签监督使用先前标记的示例来训练模型。使用ImageNet和类似的数据集已经证明了这种方法的有效性。我们可以从互联网、图像和人工创建的标签中获得大量的嘈杂数据集。 也被称为“语言监督”,这种策略使用无监督的文本信号,最常见的是图像-文字对。CLIP和ALIGN是使用对比损失比较图像-文字对的预训练模型的例子。 仅使用图像作为监督信号的图像自监督学习:这种技术完全依赖视觉图像作为监督信号的来源。遮挡图像建模、非对比和对比学习都是可行的选择。 研究人员研究了几种用于视觉理解的方法,例如用于图像标注、视觉问答、基于区域的预训练用于引接和基于像素的预训练用于分割等,可以整合以获得最佳结果。 多模态基础模型 理解和解释以多种模态呈现的数据,如文本和图像,是多模态基础模型的特点。它们使得可能进行各种任务,否则需要大量的数据收集和综合。重要的多模态概念框架包括以下几个: CLIP(对比语言-图像预训练)是一种开创性的技术,用于发现共同的图像和文本嵌入空间。它可以进行图像-文本检索和零射击分类等任务。 BEiT(视觉中的BERT)将BERT的遮挡图像建模技术应用于视觉领域。可以预测遮挡图像中的令牌,使图像转化器能够进行其他任务。 CoCa(对比和字幕预训练)将对比学习与字幕损失相结合,用于对图像编码器进行预训练。多模态任务的完成现在成为可能,得益于释义图像字幕系统。 UniCL(统一对比学习)通过将CLIP的对比学习扩展到图像标签数据,实现了图像-文字和图像-标签对的统一对比预训练。 MVP(遮挡图像建模视觉预训练)是一种使用遮挡图像和高层特征目标进行预训练的视觉转换器方法。 为了提高MIM的精度,EVA(利用视觉-文本对齐)使用来自CLIP等模型的图像特征作为目标特征。 BEiTv2在BEiT的基础上改进,通过引入像DINO一样的自蒸馏损失来促进全局视觉表示的学习。 这些多模态基础模型极大地提高了计算机视觉和自然语言处理应用中的模型解释和处理能力。 他们的研究进一步探讨了“视觉生成”,发现文本到图像生成模型一直是图片合成的基础。这些模型已成功扩展,以允许更精细的用户控制和定制。与问题相关的大量数据的可用性和生成是实施这些多模态基础模型的关键因素。 T2I生成简介T2I生成试图提供与文本描述相对应的视觉效果。这些模型通常在图像和文本对上进行训练,其中文本提供输入条件,照片则作为所需的输出。 本书从稳定的扩散(SD)示例中解释了T2I模型。由于其基于交叉关注的图像-文本融合和基于扩散的生成方法,SD是一种备受喜爱的开源T2I模型。 稳定扩散的主要组成部分有三个:去噪统一神经网络(U-Net)、文本编码器和图像变分自动编码器(VAE)。VAE对图像进行编码,TEN对文本条件进行编码,Denoising U-Net在潜在空间中预测噪声以生成新的图像。 探讨提高T2I生成中的空间可控性,其中一种方法是允许在文本之外输入更多的空间条件,例如区域相关的文本描述、分割蒙版和关键点等密集空间要求。它探讨了ControlNet等T2I模型如何使用分割蒙版和边缘图等详尽限制来管理成像生成过程。 介绍了基于文本的编辑模型的最新发展;这些模型可以根据文本指令来修改照片,消除了用户生成蒙版的需要。通过对齐调整,T2I模型可以更好地遵循文本提示,类似于如何训练语言模型以改进文本生成。讨论了可能的解决方案,包括基于强化学习的解决方案。 随着文中提到的集成对齐解决方案的T2I模型日益受到欢迎,未来不再需要独立的图像和文本模型。在这项研究中,团队提出了一种统一的T2I模型输入界面,可以同时输入图像和文本,以辅助空间控制、编辑和概念定制等任务。…

Leave a Comment

如何使用向量数据库构建LLM应用程序?

介绍 在人工智能领域,大型语言模型(LLMs)和生成型AI模型,如OpenAI的GPT-4、Anthropic的Claude 2、Meta的Llama、Falcon、Google的Palm等,已经彻底改变了我们解决问题的方式。LLMs使用深度学习技术来执行自然语言处理任务。本文将教你如何使用向量数据库构建LLM应用程序。你可能已经与类似亚马逊客服或Flipkart决策助手的聊天机器人进行过交互。它们能生成类似人类的文本,并提供几乎与现实对话无异的交互用户体验。然而,这些LLMs需要进行优化,以产生高度相关和具体的结果,才能真正对特定的使用案例有用。 例如,如果你询问亚马逊客服应用程序:“如何在Android应用中更改语言?”可能没有经过训练来处理这个确切的文本,因此可能无法回答。这就是向量数据库发挥作用的时候。向量数据库将领域文本(在这种情况下是帮助文档)和所有用户的过去查询(包括订单历史等)存储为数值嵌入,并提供实时查找相似向量的功能。在这种情况下,它将这个查询编码成一个数值向量,并使用它在其向量数据库中执行相似性搜索,找到最相似的邻居。有了这个帮助,聊天机器人可以正确地指导用户进入亚马逊应用程序的“更改语言偏好设置”部分。 学习目标 LLMs是如何工作的,它们的限制是什么,为什么它们需要向量数据库? 嵌入模型的介绍以及如何在应用程序中对其进行编码和使用。 学习什么是向量数据库,以及它们如何成为LLM应用程序架构的一部分。 学习如何使用向量数据库和tensorflow编写LLM/生成型AI应用程序。 本文是数据科学博客马拉松的一部分。 什么是LLMs? 大型语言模型(LLMs)是基础的机器学习模型,使用深度学习算法处理和理解自然语言。这些模型被训练使用大量的文本数据来学习语言中的模式和实体关系。LLMs可以执行许多类型的语言任务,例如翻译语言、分析情感、聊天机器人对话等。它们能够理解复杂的文本数据,识别实体及其之间的关系,并生成连贯且语法正确的新文本。 在这里阅读更多关于LLMs的信息。 LLMs是如何工作的? LLMs使用大量数据进行训练,通常是以太字节,甚至是拍字节,拥有数十亿或数万亿个参数,使其能够根据用户的提示或查询进行预测和生成相关的响应。它们通过词嵌入、自注意层和前馈网络处理输入数据,生成有意义的文本。你可以在这里阅读更多关于LLM架构的信息。 LLMs的限制 虽然LLMs似乎以相当高的准确性生成响应,甚至在许多标准化测试中比人类表现得更好,但这些模型仍然有限制。首先,它们完全依赖于它们的训练数据来构建推理,因此可能在数据中缺乏特定或当前的信息。这导致模型生成不正确或不寻常的响应,也被称为“幻觉”。有持续的努力在减轻这个问题。其次,模型可能无法按照用户的期望行为或响应。 为了解决这个问题,向量数据库和嵌入模型通过为用户寻找信息提供了额外的类似性查询(文本、图像、视频等)。以下是一个例子,LLMs无法回答用户询问的信息,而是依靠向量数据库找到该信息。 LLM和向量数据库 大型语言模型(LLM)被广泛应用于电子商务、旅游、搜索、内容创作和金融等行业的许多部分。这些模型依赖于一种相对较新的数据库类型,称为向量数据库,它以一种称为嵌入的二进制表示存储文本、图像、视频和其他数据的数值表示。本节介绍了向量数据库和嵌入的基本原理,更重要的是介绍了如何将它们与LLM应用程序集成使用。 向量数据库是一种使用高维空间存储和搜索嵌入的数据库。这些向量是数据特征或属性的数值表示。使用计算向量在高维空间中的距离或相似度的算法,向量数据库可以快速高效地检索相似的数据。与传统的基于标量的数据库不同,后者将数据存储在行或列中,并使用精确匹配或基于关键词的搜索方法,向量数据库的操作方式不同。它们使用向量数据库来在非常短的时间内(毫秒级别)搜索和比较大量向量,使用近似最近邻(ANN)等技术。 嵌入的简要教程 AI模型通过将原始数据如文本、视频和图像输入到诸如word2vec之类的向量嵌入库中,生成嵌入。在AI和机器学习的背景下,这些特征代表数据的不同维度,这些维度对于理解模式、关系和底层结构至关重要。 下面是使用word2vec生成词嵌入的示例。 1.…

Leave a Comment

微软和ETH Zurich的研究人员推出了HoloAssist:用于下一代物理世界AI副驾驶员的多模态数据集

在人工智能领域,一个持久的挑战是开发能够有效导航和协助现实世界任务的交互式人工智能助手。尽管在数字领域取得了重大进展,例如语言模型,但物理世界为AI系统提供了独特的障碍。 研究人员常常面临的主要障碍是AI助手在物理世界中缺乏第一手经验,无法感知、推理和主动协助真实场景。这一限制归因于训练AI模型在物理任务中需要具体数据的必要性。 为了解决这个问题,微软和苏黎世联邦理工学院的研究人员团队推出了一项被称为“HoloAssist”的具有突破性的数据集。这个数据集是专为真实世界中的自我中心、第一人称、人类互动场景而构建的。它涉及两个参与者在物理操作任务上的合作:一个佩戴混合现实头戴式显示器的任务执行者和一个观察并实时提供口头指令的任务指导者。 HoloAssist拥有大量的数据,包括166小时的记录,涉及222个多样化的参与者,形成350个独特的指导者-执行者配对,完成20个以物体为中心的操作任务。这些任务涵盖了从日常电子设备到专业工业物品的各种对象。该数据集捕捉了七种同步的传感器模态:RGB、深度、头部姿势、3D手势、眼球注视、音频和IMU,提供了对人类行为和意图的全面理解。此外,它还提供了第三方手动注释,包括文本摘要、干预类型、错误注释和动作片段。 与以往的数据集不同,HoloAssist的独特之处在于其多人互动任务执行环境,使得可以开发出具有预测性和主动性的AI助手。这些助手可以根据环境提供及时的指令,增强传统的“基于聊天”的AI助手模式。 研究团队对数据集在动作分类和预测任务中的性能进行了评估,提供了实证结果,揭示了不同模态在各种任务中的重要性。此外,他们引入了重点关注错误检测、干预类型预测和3D手势预测的新基准,这些对于智能助手的开发至关重要。 总之,这项工作代表了探索智能代理如何在真实世界任务中与人类合作的初步步骤。HoloAssist数据集以及相关的基准和工具有望推动建立强大的AI助手来完成日常真实世界任务的研究,并为众多未来研究方向打开大门。

Leave a Comment

“GPT-4的高级数据分析工具进行多样化柱状图分析” (GPT-4 de gāo jí shù jù fēn xī gōng jù jìn xíng duō yàng huà zhù zhuàng tú fēn xī)

GPT-4的先进数据分析工具(ADA)是您数据科学工具箱中必不可少的工具,可以快速高效地理解复杂数据集包括条形图分析…

Leave a Comment

斯坦福大学的研究人员提出了DDBMs:一种适用于分布转换问题的简单可扩展的扩散模型扩展

扩散模型最近在人工智能领域取得了很大的成功和关注。作为生成模型的一员,这些模型可以有效地逆转将数据转化为噪声的扩散过程,使它们能够理解复杂的数据分布。这种方法在许多生成任务中取得了突破,特别是在生成高质量图像方面,它已经超越了传统的基于GAN技术的方法。现代的文本到图像生成AI系统的发展得益于这些扩散模型的进展。 扩散模型在某些领域表现出色,但在其他领域表现不佳。在图片翻译等应用中,将它们应用起来可能比较困难,因为其假设存在一个预先存在的随机噪声分布。通常会使用一些复杂的方法,如训练模型或手动调整样本的方法来解决这个问题。这些技术在理论上支持不足,并且经常只支持单向映射,通常是从损坏的图片到清晰的图片,放弃了循环一致性的想法。 与传统的扩散模型范例相比,一组研究人员引入了一种新颖和独特的策略,称为去噪扩散桥模型(DDBMs)。扩散桥是一类平滑插值两个指定为端点的配对分布的过程,DDBMs利用了这个思想。DDBMs直接从数据中得出扩散桥的得分,而不是从随机噪声开始。然后,学习到的得分指导模型,使其通过解随机微分方程从一个端点分布映射到另一个端点分布。 DDBMs的一个主要优势是能够自动组合几种生成模型的能力。它们可以轻松地组合OT-Flow-Matching和基于得分的扩散模型的组件,以适应当前的设计决策和架构策略,以应对更一般的挑战。 该团队已将DDBMs应用于困难图片数据集的实证分析中,同时考虑像素级模型和潜空间模型。在常见的图片翻译任务中,DDBMs远远优于基线方法,展示了它们在应对具有挑战性的图像改变任务方面的适用性。当该团队简化问题,假设源分布为随机噪声时,DDBMs产生与用于图像生成的最先进技术竞争的结果,由FID得分进行评估。 这显示了DDBMs在各种生成任务中的适应性和可靠性,即使它们并不是针对特定情况而设计的。总而言之,扩散模型在各种生成任务中发挥了作用,但在图片翻译等工作中存在缺点。建议的DDBMs提供了一种创新和可扩展的解决方案,将基于扩散的生成和分布翻译方法整合在一起,提高了处理具有挑战性的与图像相关任务的性能和灵活性。

Leave a Comment

以数据为导向:与Srikanth Velamakanni一起打造数据驱动型组织

Analytics Vidhya的“以数据为先导”是一系列采访,行业领导者们在其中分享他们的经验、职业旅程、有趣的项目等等。在系列的第五集中,我们有一个非常特别的嘉宾加入了我们——Srikanth Valamakanni先生。他是Fractal Analytics的集团首席执行官、联合创始人和副主席,Fractal Analytics是印度最大的人工智能公司之一。在这次采访中,他与我们分享了关于构建数据驱动组织的见解和观察。作为该国数据分析领域的先驱之一,他还谈到了AI在多年间的变化趋势。此外,他对数据分析、数据科学和教育的深深热情也在与Analytics Vidhya的创始人兼首席执行官Kunal Jain的对话中得到了突显。以下是该次采访的摘录。 您可以在此处观看完整的采访。 AI的演进 Kunal J:我想从您的早期开始谈起。您于23年前创办了Fractal,在那个时候,分析几乎是闻所未闻的。所以,您见证了这个行业从一个非常小众到现在的发展。对您来说,这个旅程是怎样的? Srikanth V:我们的旅程非常有趣,因为它反映了AI的进步之旅。众所周知,AI这个词是在1956年的一个夏季会议上提出的。2006年,我看了会议上的录音和笔记,这次会议距离Dartmouth会议已经过去了50年。1956年的一些与会者,如Marvin Minsky等人,也参加了2006年的会议,讨论了在这50年里AI世界的进展。他们试图了解在接下来的多年里会发生什么。 我看到了那次讨论的记录,感到非常着迷,因为即使在2006年,人们实际上还在讨论AI会走上首先逻辑、创建规则、例外等的道路,还是会走向深度学习,或者当时所称的神经网络。 早些时候,当我在学习电气工程时,我学校的计算机科学系正在学习AI。他们有一门关于AI的课程,而我们有一门关于神经网络的课程——它们是两回事。AI意味着规则,比如模糊逻辑创建规则,而我们使用非常基础的神经网络进行指纹识别、签名验证等。那是在90年代。 所以,即使在2006年,定义和区别并不是很清晰。仅仅4年后,突然间,神经网络和深度学习成为了世界各地的核心主题。我们开始看到IBM、微软、谷歌等实验室取得的令人印象深刻的成果。然后在2011-12年,非常有趣的事情发生了——谷歌意识到这项技术将以非常重要的方式改变世界。所以他们聘请了Jeffrey Hinton,众所周知,他将AI应用于谷歌的每个产品。 所以,我多年来在AI进化方面所见到的是,有过谷歌的旧日子。然后到了2010年,那些最大的AI本土或数字本土公司开始意识到AI的潜力。到了2015年,世界各地的财富100和财富500公司开始意识到这一点。大约在2014-15年,我开始看到许多董事会要求他们的首席执行官来展示他们的数据策略或AI策略。然而,在印度这仍然不是一件很大的事。 但在2020年,AI在全球范围内变得非常重要。尤其是COVID之后,它开始蓬勃发展,现在在2023年,有了ChatGPT之后,它已经成为我们无法停止讨论的一个话题。 Fractal的AI之旅 Srikanth V:如果您看一下Fractal的旅程,前10年全部都是关于使用分析解决问题。所以,我们知道一个非常明确的决策问题。我们通过数据观察正在发生的事情,预测可能会发生的事情,并帮助公司做出更好的决策。在很大程度上,这是通过逻辑回归、决策树、随机森林、XGBoost等技术来完成的。直到2010年,我们大部分时间都在处理结构化数据。</p 到2011-12年,我们创建了一个叫做Fractal Sciences的公司,来探索这个领域里最令人印象深刻的新问题并投资于它们。从此,我们推出了很多产品,并最终聘请了Prashant…

Leave a Comment

这项人工智能研究揭示了“康定斯基1号”:一种在COCO-30K上以杰出的FID分数进行潜在扩散文本到图像生成的新方法

近年来,计算机视觉和生成建模取得了显著进展,推动了文本到图像生成的发展。包括扩散模型在内的各种生成架构在提高生成图像的质量和多样性方面起到了关键作用。本文探讨了Kandinsky1的原理、特点和能力,这是一个具有33亿参数的强大模型,并强调了它在可衡量的图像生成质量方面的顶级表现。 文本到图像生成模型已经从内容级别的自回归方法演变为像DALL-E 2和Imagen这样的基于扩散的模型。这些扩散模型被分类为像素级和潜在级别的模型,在图像生成方面表现出色,超越了GAN在忠实度和多样性方面。它们在不需要对抗训练的情况下整合文本条件,如GLIDE和eDiff-I模型所示,这些模型生成低分辨率的图像,并使用超分辨率扩散模型将其放大。这些进步改变了文本到图像生成的方式。 AIRI、Skoltech和Sber AI的研究人员介绍了Kandinsky,这是一种结合了潜在扩散技术和图像先验模型的新型文本到图像生成模型。Kandinsky以修改后的MoVQ实现作为其图像自编码器组件,并单独训练图像先验模型将文本嵌入映射到CLIP的图像嵌入中。他们的方法提供了一个用户友好的演示系统,支持多种生成模式,并发布了模型的源代码和检查点。 他们的方法引入了一种潜在扩散架构,用于文本到图像合成,利用图像先验模型和潜在扩散技术。它采用了一种图像先验方法,通过使用CLIP和XLMR文本嵌入之间的扩散和线性映射,将文本与图像嵌入相结合。他们的模型包括三个关键步骤:文本编码、嵌入映射(图像先验)和潜在扩散。基于全数据集统计的视觉嵌入逐元素归一化实现可以加速扩散过程的收敛。 Kandinsky架构在文本到图像生成方面表现出色,在256×256分辨率下在COCO-30K验证数据集上获得了令人印象深刻的FID分数8.03。线性先验配置获得了最佳的FID分数,表明视觉和文本嵌入之间存在潜在的线性关系。他们的模型在训练一个“猫先验”时展示了出色的图像生成能力。总体而言,Kandinsky在文本到图像合成方面与最先进的模型竞争激烈。 Kandinsky作为一种基于潜在扩散的系统,在图像生成和处理任务中表现出色。他们的研究广泛探索了图像先验设计选择,线性先验显示出潜在的应用前景,并暗示了视觉和文本嵌入之间存在线性关联。用户友好的界面,如Web应用和Telegram机器人,提高了可访问性。未来的研究方向包括利用先进的图像编码器,增强UNet架构,改进文本提示,生成更高分辨率的图像,以及探索局部编辑和基于物理的控制等功能。研究人员强调需要解决内容方面的问题,建议使用实时审核或强大的分类器来减轻不受欢迎的输出。

Leave a Comment

该AI研究提出了Kosmos-G:一种通过利用多模型LLM的属性,从广义视觉语言输入中生成高保真零射影像的人工智能模型

最近,从文本描述中创建图像和将文本和图像结合生成新图像方面取得了重大进展。然而,一个未被探索的领域是从广义视觉-语言输入(例如,根据涉及多个对象和人的场景描述生成图像)中生成图像。微软研究(Microsoft Research),纽约大学(New York University)和滑铁卢大学(University of Waterloo)的研究人员团队介绍了名为KOSMOS-G的模型,它利用多模态LLM(Language and Vision Models)来解决这个问题。 KOSMOS-G能够从复杂的文本和多张图片的组合中创建详细的图像,即使它没有见过这些例子。这是第一个可以根据描述生成具有各种对象或事物的图像的模型。KOSMOS-G可以替代CLIP,为使用其他技术如ControlNet和LoRA提供了新的可能性。 KOSMOS-G使用了一种巧妙的方法从文本和图片生成图像。首先,它通过对训练一个多模态LLM(能够同时理解文本和图片)来与CLIP文本编码器(擅长理解文本)进行对齐。 当我们给KOSMOS-G一个带有文本和分割图片的标题时,它被训练为创建符合描述和遵循指示的图像。它通过使用预训练的图像解码器和利用从图片中学到的知识,在不同的情况下生成准确的图片。 KOSMOS-G可以根据指令和输入数据生成图像。它具有三个训练阶段。在第一阶段,模型在多模态语料库上进行预训练。第二阶段,通过CLIP监督训练一个AlignerNet,将KOSMOS-G的输出空间与U-Net的输入空间进行对齐。第三阶段,通过一个组合生成任务在策划数据上对KOSMOS-G进行微调。在第一阶段,只训练MLLM。在第二阶段,AlignerNet在MLLM冻结状态下进行训练。在第三阶段,AlignerNet和MLLM在一起进行训练。图像解码器在各个阶段始终保持冻结状态。 KOSMOS-G在不同设置下的零样本图像生成能力非常出色。它能够制作有意义、外观好且可以不同方式自定义的图像。它可以改变上下文,添加特定风格,进行修改,以及给图像添加额外细节等。KOSMOS-G是第一个在零样本设置下实现多实体VL2I的模型。 KOSMOS-G可以轻松取代图像生成系统中的CLIP。这为以前无法实现的应用程序开辟了令人兴奋的新可能性。借助CLIP的基础,KOSMOS-G有望推动从基于文本生成图像到基于文本和视觉信息的组合生成图像的转变,为许多创新应用提供机会。 总之,KOSMOS-G是一个可以从文本和多张图片中创建详细图像的模型。它在训练中采用了一种称为“在指示之前进行对齐”的独特策略。KOSMOS-G擅长制作单个对象的图像,并且是第一个能够处理多个对象的模型。它还可以替代CLIP,并与ControlNet和LoRA等其他技术结合使用,造就新的应用。简而言之,KOSMOS-G是朝着以图像生成语言的方向迈出的第一步。

Leave a Comment

OpenAI的GPT-4V(ision):AI多模态领域的突破

在改革人工智能领域格局的划时代举措中,OpenAI推出了具有视觉能力的GPT-4,名为GPT-4V。这一新的迭代版本赋予用户同时运用语言和视觉数据的强大能力。从而解锁前所未有的能力,承诺为我们与人工智能的互动带来革命性变革。在这里,我们将深入探讨这一最新进展,并探索它对我们生活的各个方面可能产生的影响。 还可以阅读:揭开AI的未来——GPT-4和可解释的AI(XAI) 具有远见的飞跃 将图像输入整合到大型语言模型(LLMs)中代表着人工智能研究和开发中的一个关键里程碑。GPT-4V旨在将仅限于语言的系统转变为多模态强大实体,引领着一个创新界面和突破性功能的时代。GPT-4V具备分析和解释图像的能力,为用户带来了全新的可能性。 从文本到文本和图像 GPT-4 Vision使得ChatGPT能够弥补文本和图像信息之间的差距。用户现在可以探索图像并获得有关其地理起源的详细见解,这使得它成为渴望通过视觉数据对世界有更多了解的好奇心旺盛的人的宝贵工具。 揭开GPT-4V的应用案例 GPT-4V的真正魅力在于其多样的应用。以下是一些最终用户正在使用GPT-4V的卓越方式: 通过ChatGPT确定图像起源:通过图像分析解锁世界的秘密,GPT-4 Vision增强了ChatGPT确定图像地理起源的能力。 解决复杂数学概念:GPT-4V是一个能够分解复杂方程和图形的数学天才,成为学生和学者们必不可少的伙伴。 将手写输入转换为LaTeX代码:GPT-4V将手写注释转换为LaTeX代码的能力简化了研究人员和学生们常常需要数字化他们手写的技术信息的生活。 提取表格细节:GPT-4V在数据分析方面的能力使其能够高效地从表格中提取和解释信息,简化数据处理过程。 理解视觉指向:GPT-4V通过理解视觉线索并以更高的上下文理解回应,将用户交互提升到一个新的水平。 使用绘图构建简单的模拟网站:GPT-4V提供了一种将绘图转化为用于创建基本网站的网页布局的独特工具。 重视质量保证 OpenAI在确保GPT-4V的可靠性和安全性方面毫不懈怠。已经进行了广泛的定性和定量评估,涵盖了各种场景。评估过程包括内部测试和专家评审,评估模型在识别有害内容、人口统计识别、隐私问题、地理定位、网络安全和多模态监狱层破解等任务中的性能。 限制和注意事项 虽然GPT-4V是人工智能技术的一个引人注目的飞跃,但我们需要认识到它的局限性。该模型可能会产生不正确的推论、在图像中错过文本或字符,甚至会生成虚构的事实。值得注意的是,它不适合于识别图片中的危险物质,并经常错误识别它们。在医学领域,它可能会产生矛盾的回答,并缺乏对标准实践的认识,潜在地导致误诊。 此外,GPT-4V对于某些符号的理解和基于视觉输入生成不适当内容的潜力引起了关注,特别是在敏感环境中。 充满前景的未来 GPT-4 Vision(GPT-4V)的到来带来了无限可能和挑战。在发布之前,我们进行了详细的努力,以解决潜在的风险。特别是使用个人的图像方面的风险,确保好处远大于任何缺点。 随着我们进入人工智能时代,GPT-4V成为人机协作无限潜能的证明。凭借分析图像的能力,这一开创性技术打开了新的视野。因此,它展示了一种未来的样貌,即语言模型变得更加智能和对视觉更加敏感。

Leave a Comment

VoAGI新闻,10月11日:3个数据科学项目助你拿到那份工作 • 7步掌握自然语言处理

本周:什么是三个数据科学项目,让您确保获得工作?• 一份七步指南,帮助您从机器学习和Python的基础知识走向Transformer、自然语言处理的最新进展,乃至更高层次

Leave a Comment