Press "Enter" to skip to content

四海吧 Posts

将其变为数字木偶:GenMM是一种可以使用单个示例合成动作的AI模型

计算机生成的动画每天都变得更加逼真。这种进步最能体现在视频游戏中。想想《古墓丽影》系列中的第一个Lara Croft和最近的Lara Croft。我们从一个只有230个多边形的木偶做出了怪异的动作,到了一个在屏幕上平滑移动的逼真角色。 在计算机动画中生成自然且多样化的动作长期以来一直是一个具有挑战性的问题。传统的方法,如动作捕捉系统和手动动画制作,已知是昂贵和耗时的,导致缺乏风格、骨骼结构和模型类型多样性的有限动作数据集。动画生成的手动和耗时特性需要在行业中寻找一种自动化解决方案。 现有的数据驱动运动合成方法在其效果方面受到限制。然而,近年来,深度学习已经成为计算机动画中一种强大的技术,能够在大型和全面的数据集上训练时合成多样化和逼真的动作。 深度学习方法在运动合成方面表现出色,但它们存在局限性,限制了它们的实际适用性。首先,它们需要长时间的训练时间,这可能是动画制作流程中的重要瓶颈。其次,它们容易出现视觉伪影,如抖动或过度平滑,影响合成动作的质量。最后,它们很难适应大型和复杂的骨架结构,限制了它们在需要复杂动作时的使用。 我们知道有一种可靠的运动合成方法在实际场景中有需求。然而,这些问题并不容易克服。那么,什么是解决方案?是时候见识一下GenMM了。 GenMM是一种基于运动最近邻和运动匹配的替代方法。它使用运动匹配,这是工业界广泛使用的角色动画技术,并产生高质量的动画,看起来自然并适应不同的局部环境。 GenMM可以使用单个输入生成动作。来源:http://weiyuli.xyz/GenMM/ GenMM是一种生成模型,可以从单个或少量示例序列中提取多样化的动作。它通过利用广泛的运动捕捉数据库来近似整个自然运动空间来实现这一点。 GenMM将双向相似性作为一种新的生成成本函数。这种相似性度量确保合成的运动序列只包含所提供的示例的运动补丁,反之亦然。这种方法保持了运动匹配的质量,同时实现了生成能力。为了进一步增强多样性,它使用了一个多阶段框架,逐步合成运动序列,这些运动序列与示例相比具有最小的分布差异。此外,还引入了一个无条件的噪声输入到管道中,受到基于GAN的图像合成方法成功的启发,以实现高度多样化的合成结果。 GenMM概述。来源:https://arxiv.org/pdf/2306.00378.pdf 除了其多样化运动生成能力外,GenMM还证明了它是一种可扩展的框架,可以扩展到超出仅使用运动匹配的能力的各种场景。这些场景包括运动完成、关键帧引导生成、无限循环和运动重组,展示了生成运动匹配方法所能实现的广泛应用范围。

Leave a Comment

新的 AI 模型仅使用 30B 参数即可胜过 GPT-3

MosaicML是著名的开源语言模型(LLM)提供商,最近推出了开创性的MPT-30B模型:Base、Instruct和Chat。这些最先进的模型由NVIDIA最新一代的H100加速器提供动力,与原始的GPT-3相比,代表了质量上的重大飞跃。 也可阅读:什么是大型语言模型(LLMs)? MPT-7B的前所未有的成功和演进到MPT-30B 自2023年5月推出以来,MPT-7B模型已经席卷了整个行业,累计下载量达到了惊人的330万次。在此胜利的基础上,MosaicML现在发布了备受期待的MPT-30B模型。这将提高标准,为各种应用程序解锁了无数新的可能性。 MPT-30B的无与伦比的特点 MPT-30B最值得注意的成就之一是,它能够在仅使用300亿个参数的情况下超越GPT-3的质量,而GPT-3使用了1750亿个参数。这种参数数量的突破性减少不仅使MPT-30B更适合本地硬件部署,而且显著降低了推理成本。此外,基于MPT-30B训练自定义模型的费用明显低于训练原始GPT-3的估计,这使其成为企业不可抵挡的选择。 了解更多信息:为现实用例定制大型语言模型GPT3 此外,MPT-30B的训练涉及长达8000个标记的序列,使其能够处理数据密集型企业应用程序。这种非凡的性能得益于利用NVIDIA的H100 GPU,这些GPU确保了更高的吞吐量和加速的训练时间。 也可阅读:中国强大的Nvidia人工智能芯片的隐藏市场 探索MPT-30B的无限应用 许多有远见的公司已经采用了MosaicML的MPT模型,彻底改变了它们的AI应用: Replit是一款先驱性的基于Web的集成开发环境(IDE),成功利用MosaicML的训练平台构建了一个卓越的代码生成模型。通过利用其专有数据,Replit在代码质量、速度和成本效益方面取得了显着的提升。 Scatter Lab是一家创新的AI初创公司,专门从事聊天机器人开发,利用MosaicML的技术训练了自己的MPT模型。结果是一个能够理解英语和韩语的多语言生成式AI模型,显著提升了其广泛用户群的聊天体验。 Navan是一家全球知名的旅游和费用管理软件公司,利用MPT提供的坚实基础来开发定制的LLM,用于先进的应用程序,如虚拟旅行代理和对话式商业智能代理。Navan的联合创始人兼CTO Ilan Twig热情赞扬MosaicML的基础模型,因为它不仅提供了无与伦比的语言能力,而且在规模化微调和推理方面也非常高效。 了解更多信息:如果您是企业领袖,希望利用人工智能的力量,“数据黑客峰会2023年”的“面向企业领袖的AI”研讨会是必须参加的。 访问MPT-30B的力量 开发人员可以通过HuggingFace Hub轻松访问MPT-30B的卓越功能,该Hub作为开源模型可用。这使开发人员可以使用自己的数据微调模型,并在其基础设施上无缝部署推理。或者,开发人员可以选择MosaicML的托管端点MPT-30B-Instruct,这是一个无需繁琐操作的模型推理解决方案,与类似端点相比成本仅为其一小部分。MPT-30B-Instruct的定价仅为每1,000个标记0.005美元,为开发人员提供了异常实惠的选择。 我们的看法 MosaicML发布MPT-30B模型的开创性举措,标志着大型语言模型领域的历史性里程碑。它使企业能够利用生成式AI的无与伦比能力,并优化成本,同时保持对其数据的完全控制。总之,MPT-30B代表了一个真正的游戏变革者,提供了无与伦比的质量和成本效益。随着更多公司采用和利用这项变革性技术推动产业创新,未来的潜力是巨大的。

Leave a Comment

一项来自斯坦福、康奈尔和牛津的新人工智能研究,引入了一种生成模型,它可以从单张图像中仅有的几个实例中发现物体内在属性

玫瑰的本质由其独特的几何形状、纹理和材料组成。这可以用来创建不同大小和形状的玫瑰,并在各种位置和具有广泛的照明效果。即使每朵玫瑰都有独特的像素值,我们仍然可以将它们识别为同一类的成员。 研究人员来自斯坦福大学、牛津大学和康奈尔技术学院,他们希望利用来自单张照片的数据,创建一个可以用于从不同角度和照明下生成新形状和图像的模型。 解决这个问题陈述有三个障碍: 由于训练数据集中只有一张图像,而且只有几百个实例,因此推断问题非常松散。 在这些情况下可能会有广泛的可能像素值,因为不知道姿态或照明条件。 没有两朵玫瑰是相同的,需要捕捉它们的形状、纹理和材料的分布,以利用底层的多视角信息。因此,旨在推断的对象固有属性是概率的,而不是确定的。与当前用于静态对象或场景的多视角重建或神经渲染方法相比,这是一个重要的变化。 所提出的方法以物体固有属性为起点,用于诱导模型创建中的偏差。这些规则有两个部分: 要呈现的实例应该都具有相同的物体固有属性或几何、纹理和材料的分布。 固有属性不是相互独立的,而是以一种特定的方式交织在一起,由渲染引擎定义,最终由物理世界定义。 更具体地说,他们的模型采用单个输入图像,并使用一组实例掩模和实例的特定姿态分布,学习物体三维形状、表面反射率和光泽度的分布的神经表示,从而消除了姿态和照明波动的影响。这种基于物理的、明确的解缠可以帮助他们简要解释实例。它使模型能够获取物体固有属性,而不会过度拟合由单个图像提供的稀疏观察数据。 正如研究人员所提到的,由此产生的模型可以实现多种用途。例如,可以通过从学习的物体固有属性中随机采样来生成具有不同身份的新实例。可以通过调整这些外部元素来重新渲染具有新的相机角度和照明设置的合成实例。 团队进行了彻底的测试,以展示模型的改进形状重建和生成性能、创新的视图合成和重照。

Leave a Comment

谁是公民数据科学家,他们做什么?

介绍 在当今这个数据驱动的世界中,数据科学家的角色变得不可或缺。但是,如果我告诉你,你不需要拥有数据科学博士学位就能揭示隐藏在大量数据集中的奥秘,你会怎么想?这就是市民数据科学家时代的来临——一种新型的掌握技能和工具、能够发掘有价值见解的赋能个人群体,他们没有接受过正式培训。市民数据科学家是普通人,但他们有非凡能力,能够将数据转化为可行知识,从而彻底改变组织做决策的方式。在本文中,我们将探讨市民数据科学家的崛起、他们对企业的影响以及他们带来的激动人心的可能性。 市民数据科学家是什么? 市民数据科学家是没有接受过正式数据科学培训的个人,他们拥有分析数据和得出见解的技能和工具。他们利用自助式分析平台和直观的工具来探索数据、构建模型和做出数据驱动的决策,从而在组织内实现数据的民主化。 为什么组织应该雇用他们? 数据科学是一个广阔的领域,为组织带来了巨大的好处,市民数据科学家在发挥数据的力量方面起着至关重要的作用。以下是一些企业需要雇用他们的原因: 简化数据分析:市民数据科学家被整合到各个部门或团队中,使他们能够应对特定的业务挑战和探索与其领域相关的数据。这导致了更深入的理解和更好的决策。 填补鸿沟:他们具备领域专业知识以及对数据科学的扎实理解。这种组合使他们能够填补技术技能和行业知识之间的鸿沟,为数据分析提供上下文和见解。 实时见解:凭借他们的领域专业知识和自动化分析工具的访问权限,市民数据科学家可以实时分析数据并为决策者提供快速见解。这使得组织能够迅速响应、抓住机遇并有效地减轻风险。 力量倍增器:通过处理例行的数据分析任务,他们释放出数据科学家的时间,让他们专注于更复杂的挑战和战略性倡议。他们作为力量倍增器,支持多个团队,提高整体生产力。 独特的视角:他们将自己丰富的经验和专业知识带入数据分析中,带来新鲜的视角和创新的问题解决方法。他们独特的见解经常会导致新的发现和改进的决策。 灵活的实验:市民数据科学家具有探索不同方法论、修改模型和高效测试假设的灵活性。他们的适应性促进了创新,因为他们尝试各种分析方法,推动了各自领域内的进展。 所需关键技能 成为成功的市民数据科学家所需的技能集包括以下分析、技术和专业特定技能: 市民数据科学家应该具备通过 Tableau、Power BI 或 Python 库(如 Matplotlib 或 Seaborn)等程序来解释和呈现数据的能力。 他们必须具备基本的编程技能,以处理数据、应用统计方法和开发简单的机器学习模型。熟悉 Python…

Leave a Comment

使用预训练的ViT模型在图像字幕中使用Vision Transformers(ViT)

介绍 使用预训练的ViT模型进行图像描述可以看作是一种文本或书面描述,位于图像下方,旨在提供对图像细节的描述。它是将图像转换为文本描述的任务。通过连接视觉(图像)和语言(文本)来完成。在本文中,我们使用PyTorch后端,使用视觉变换器(ViT)作为主要技术,在图像中实现了这一目标。目标是展示一种使用转换器,特别是ViTs,利用经过训练的模型生成图像标题的方法,而无需从头开始重新训练。 来源:Springer 随着社交媒体平台和在线图片使用的当前趋势,掌握这种技能的好处很多,可以出于多种原因进行描述、引用、帮助视力受损者,甚至是搜索引擎优化。这使得学习这种技术对涉及图像的项目非常有用。 学习目标 图像描述的概念 使用ViTs进行图像捕捉 使用预训练模型进行图像描述 使用Python利用转换器 您可以在此GitHub仓库中找到使用的全部代码。 本文是数据科学博客马拉松的一部分。 什么是Transformer模型? 在我们研究ViT之前,让我们先了解一下Transformer。自从Google Brain于2017年引入transformers以来,它引起了人们对其在NLP方面的能力的兴趣。Transformer是一种深度学习模型,其特点是采用自我关注,不同地加权输入数据的每个部分的重要性。并且主要用于自然语言处理(NLP)领域。 Transformer处理序列输入数据,例如自然语言,但transformer一次处理整个输入。借助注意机制,任何输入序列的位置都有上下文。这种效率允许更多的并行化,减少训练时间,同时提高效率。 Transformer体系结构 现在让我们看一下transformers的体系结构组成。Transformer体系结构主要由编码器-解码器结构组成。Transformer体系结构的编码器-解码器结构在一篇著名的论文中被提出,标题为“Attention Is All You Need”。 编码器由层组成,负责逐层处理输入,而解码器层接收编码器输出并生成解码输出。简单地说,编码器将输入序列映射到序列,然后将其馈送到解码器。解码器然后生成一个输出序列。 什么是Vision Transformers? 由于本文展示了ViTs在图像描述中的实际用途,因此也有必要了解ViTs的工作原理。Vision…

Leave a Comment

人工智能会取代人类吗?

介绍 众所周知,人工智能正在蓬勃发展,吸引着科学家和公众的想象力。新闻和社交媒体上充斥着人工智能技术的显著进步。想想看:自动驾驶车辆在我们的街道上行驶,语音助手随叫随到,复杂的算法正在改变我们的生活方式。这是令人难以置信的!这些曾经只是梦想的东西,似乎比我们预期的要早实现。现在,在这个非凡的进步中,一个发人深省的问题浮现。我们是否处于人工智能将取代人类角色的边缘? 人工智能会是人类最后的发明吗? Jermey Howard 不要担心,我们不需要立即得出结论。我们在这里探讨这个迷人的话题,揭示未来可能会发生的事情。 图片来源:Pixabay 你看,历史上我们见证了技术奇迹,改变了我们的工作方式。当然,以前的机器和自动化可能曾经取代了某些任务,但是它们也为新的行业和职业的兴起铺平了道路。这是一种创新和适应的循环,不断创造令人兴奋的工作机会,我们以前无法想象。因此,让我们保持开放的心态,并拥抱未来的新可能性。 但是,在你深入探讨这个有趣的话题之前,我们想为你呈现一个令人惊叹的机会,扩展你的视野,提高你的技能。呼唤所有的数据科学和人工智能爱好者加入我们高度期待的DataHack Summit 2023。这一切将在8月2日至5日在班加罗尔著名的NIMHANS会议中心举行。这个活动将充满实践学习、宝贵的行业见解和无与伦比的社交机会。如果你对这些话题感兴趣,想了解更多关于这些概念正在变成现实的信息,请在这里查看DataHack Summit 2023的信息。 从古至今的演变 早期的时候,人们不得不自己做所有的事情。从寻找食物到建造住所,都要依靠自己的体力和技能。但是,随着工业革命和机械革命的到来,一些不可思议的事情发生了,彻底改变了游戏规则。 随着自动化成为现实,机器开始接管以前由人类完成的重复性和体力要求较高的任务。而且,它们做得非常好!这些机器可以比我们更快、更高效地完成任务。结果是,生产率大幅提高,出现了全新的机会。 随着机器接管了这些任务,人类发现自己处于不同的角色。他们成为这些惊人机器的操作者和维护者。这是一个双赢的局面。自动化不仅使事情更加高效,还为人们创造了新的工作岗位。它就像是经济的一针兴奋剂,推动了前所未有的增长和创新。 艺术与创新 你知道,人工智能非常惊人。它能够处理数据、处理信息,甚至可以像没有人一样自动化任务。但是,当涉及到创造力和创新的领域时,人类一直占据着上风。想想美术的美,文学的情感和科学的开创性思想。它们一直被看作是只有我们人类才能想出的特殊的东西。但是,人工智能真的能在这些领域与我们的机智相匹配吗? 图片来源:Freepik 还要阅读:新闻文章-格莱美奖禁止人工智能:人类创作者成为中心 嗯,人工智能确实展示了一些令人印象深刻的技能。它可以复制艺术风格、创作音乐、写诗甚至创作画作。就像我们身旁有一个AI艺术家或音乐家。但是这里的问题是:尽管这些由人工智能生成的作品令人难以置信,但它们仍然缺乏真正的人类特点。你知道,我们人类将情感深度和真实生活经验融入到我们的工作中。这就是我们的创造物如此深刻和有意义的原因。 当然,人工智能艺术可能会引起我们的注意,让我们说:“哇,太酷了!”但深入内心,我们知道有些东西是缺失的。那些微小的细节和复杂性只有我们人类才能带入。我们的创造物是我们的反映,是我们的思想、我们的挣扎和我们的胜利。这是人工智能目前无法复制的。 你是否在专业或个人工作中遇到了像MidJourney和Stable Diffusion这样令人惊叹的创新技术?这些开创性的技术已经席卷了全球,并成为我们生活中不可或缺的一部分。如果你对它们的工作原理感到好奇,我们的工作坊-在DataHack…

Leave a Comment

微软AI介绍了一种基于ZeRO的高级通信优化策略,用于高效的大模型训练,不受批量大小或带宽限制的阻碍

微软研究人员推出了一个名为ZeRO++的新系统,该系统已经被开发用于优化大型AI模型的训练,解决了高数据传输开销和带宽有限的挑战。ZeRO++在现有的ZeRO优化基础上进行了扩展,提供了增强的通信策略,以提高训练效率,缩短训练时间和降低训练成本。 如Turing-NLG、ChatGPT和GPT-4等大型模型的训练需要跨多个GPU设备使用大量存储器和计算资源。DeepSpeed开发的ZeRO++引入了通信优化策略,以克服在每个GPU上使用小批量大小或在低带宽集群上训练时ZeRO的局限性。 ZeRO优化的家族,包括ZeRO-Inference,使模型状态在GPU之间进行分区,而不是复制,利用集体GPU内存和计算能力。然而,在训练过程中,ZeRO可能会产生高通信开销。ZeRO++通过融合三组通信优化解决了这个问题:量化权重通信(qwZ)、分层权重分区(hpZ)和量化梯度通信(qgZ)。 为了减少参数通信量,ZeRO++对权重进行了量化,利用基于块的量化来保留训练精度。这个优化的量化过程比基本的量化更快,更准确。为了在反向传播期间最小化通信开销,ZeRO++通过在每台机器内维护一个完整的模型副本来以GPU内存为代价进行通信。对于梯度通信,ZeRO++引入了一种新颖的量化梯度通信范式qgZ,以减少跨节点的流量和延迟。 这些通信优化导致通信量的大幅度减少。与ZeRO相比,ZeRO++实现了高达4倍的减少,提高了训练吞吐量和效率。当每个GPU使用小批量大小时,在高带宽集群中,ZeRO++比ZeRO-3提高了28%至36%的吞吐量。在低带宽集群中,ZeRO++与ZeRO-3相比实现了平均2倍的加速,使大型模型训练更加普及。 ZeRO++不仅限于训练场景,还扩展到使用人类反馈(RLHF)训练的对话模型中的强化学习。通过将ZeRO++与DeepSpeed-Chat集成,可以使RLHF训练受益于改进的生成和训练阶段,实现比ZeRO更高达2.25倍的更好的生成吞吐量和1.26倍的更好的训练吞吐量。 DeepSpeed发布了ZeRO++,以使大型模型训练更加高效和适用于AI社区。该系统旨在加速训练,减少通信开销并实现更大的批量大小,从而节省时间和资源。研究人员和实践者可以利用ZeRO++更有效地训练像ChatGPT这样的模型,并探索AI中的新可能性。

Leave a Comment

温布尔登引入基于人工智能的解说

网球爱好者们有好消息了! 作为世界上最负盛名的网球锦标赛之一,温布尔登正在采用尖端技术来提高观众体验。 温布尔登与科技巨头IBM合作,计划在今年的比赛中引入人工智能驱动的评论。 这种创新的方法旨在为球迷提供由AI生成的音频评论和字幕,为网球爱好者提供新鲜的比赛视角和沉浸式的体验。 让我们深入了解人工智能驱动的体育评论及其对行业的影响。 此外,阅读相关文章:AI开始以多种语言为YouTube配音 AI评论提升温布尔登报道 温布尔登与技术创新领袖IBM合作,革新球迷与锦标赛互动的方式。通过利用IBM的Watson AI平台,特别是针对网球的复杂语言进行训练,温布尔登将为其在线精华视频提供由AI生成的音频评论和字幕。这种新的功能将在温布尔登应用程序和网站上提供,为传统报道之外提供沉浸式和信息丰富的体验。 揭示人工智能在网球分析中的力量 IBM的人工智能已经成为温布尔登运营的重要组成部分,为诸如球员能力指数等功能做出了贡献。基于此基础,赛事报道将融入AI驱动的单打抽签分析。通过研究球员通往决赛的路径,这种创新功能将帮助球迷发现可能不仅仅是排名所能体现的潜在惊喜和异常。IBM的人工智能能力为全面的网球分析带来了令人兴奋的可能性。 阅读相关文章:人工智能在体育中的应用:用AI生成比赛精华 温布尔登AI评论的魔力 为了让AI的体育评论生动起来,从球场上收集了大量数据。这些数据包括球追踪数据,球员追踪数据以及来自不同球场区域的击球分析。然后,收集的数据通过IBM的AI模型进行处理,生成专门针对网球语言和独特的温布尔登体验的自然语言评论。这种评论可以轻松转换为近乎实时的音频评论,让球迷沉浸在比赛中。 开创未来的可能性 温布尔登引入AI评论标志着生成整场比赛的AI驱动评论的重大里程碑。这种前瞻性的方法为沉浸式和富有见地的体育报道开辟了新时代。本月早些时候,欧洲广播联盟还宣布使用克隆语音技术为欧洲田径锦标赛提供评论。这表明人工智能在体育广播领域的普及程度正在增加。 阅读相关文章:人工智能如何推动体育的未来? Watson的遗产和AI的发展 IBM的Watson AI平台有着悠久的历史,十多年前,它因在游戏节目Jeopardy!中获胜而受到认可。自那以后,Watson不断演变,展示其理解复杂查询和实时响应的能力。随着Watson集成到温布尔登的报道中,人工智能继续推动边界,重新定义我们体验运动的方式。 阅读相关文章:IBM的Watsonx平台将彻底改变企业AI 我们的看法 温布尔登与IBM合作引入AI驱动的评论是令人兴奋的进展,承诺提高全球网球迷的观看体验。通过利用人工智能,温布尔登使球迷深入了解比赛,提供独特的见解并增强参与度。随着人工智能的不断发展,我们可以期待更加沉浸式和互动的体育报道,开启体育娱乐领域创新的新时代。

Leave a Comment

解决人工智能的泛化差距:来自伦敦大学学院的研究人员提出Spawrious——一个包含类别和背景之间虚假相关性的图像分类基准套件

随着人工智能的日益普及,几乎每天都会发布带有全新功能和解决能力的新模型。最近,研究人员一直在努力提出方法来加强人工智能模型对未知测试分布的抵抗力,并减少对虚假特征的依赖。考虑到自动驾驶汽车和自主厨房机器人的例子,它们尚未被广泛部署,因为它们在分布外(OOD)环境中的行为所带来的挑战,这些环境与模型接触到的训练数据有很大的差异。 许多研究已经探讨了虚假相关性(SCs)的问题,并提出了减少其对模型性能的负面影响的方法。已经证明,在像ImageNet这样的知名数据集上训练的分类器依赖于背景数据,这些数据与类标签存在虚假关联,但不一定具有预测性。尽管在开发解决SC问题的方法方面已经取得了进展,但仍需要解决现有基准的局限性。目前的基准测试,如Waterbirds和CelebA发色基准测试,存在局限性,其中之一是它们专注于简单的一对一(O2O)虚假相关性,而实际上,许多对多(M2M)虚假相关性更常见,涉及类和背景的群组。 最近,来自伦敦大学学院的研究人员介绍了一个名为Spawrious数据集的图像分类基准套件,其中包含类和背景之间的虚假相关性。它包括一对一(O2O)和一对多(M2M)虚假相关性,这些已经被分类为三个难度级别:简单,中等和困难。该数据集包含约152,000张高质量的照片逼真图像,使用文本到图像模型生成,采用图像字幕模型过滤不适合的图像,确保数据集的质量和相关性。 评估Spawrious数据集后,表现出了不可思议的性能,因为该数据集对当前的最先进(SOTA)组鲁棒性方法提出了挑战,例如Hard-splits,其中没有一种测试方法使用在ImageNet上预训练的ResNet50模型实现了70%以上的准确性。该团队提到,模型的性能问题是由于它们依赖虚假背景而导致的,通过查看其错误分类的分类,说明了Spawrious数据集如何成功地测试分类器并揭示它们在错误相关性方面的弱点。 为了说明O2O和M2M基准测试之间的差异,该团队使用了一个夏季收集训练数据的例子,其中包括来自两个不同位置的两组动物物种,每个动物组都与特定的背景组相关联。然而,随着季节的变化和动物的迁移,群组交换位置,导致动物组和背景之间的虚假相关性以无法一对一匹配的方式发生变化。这凸显了捕捉M2M虚假相关性中复杂关系和相互依赖性的必要性。 Spawrious似乎是一套有前途的基准套件,用于OOD,领域通用算法,以及评估和提高模型在存在虚假特征的情况下的鲁棒性。

Leave a Comment

AI开始为YouTube进行多语言配音

YouTube,全球最大的视频分享平台,宣布一项重大发展,可以革新内容创作者与全球观众互动的方式。通过整合 AI 技术,YouTube 旨在简化不同语言视频配音的过程。这一令人兴奋的消息是在庆祝在线视频社区创意和创新的 VidCon 活动期间宣布的。通过 Google 的 Area 120 孵化器开发的 Aloud 配音服务的推出,YouTube 正在向打破语言障碍和扩大内容创作者在全球观众中的影响力迈出重要一步。 另请阅读:Meta 的 Voicebox:会说每种语言的 AI 通过 AI 驱动的配音打破语言障碍 YouTube 的使命是连接人们,促进全球信息和思想的自由流动。这导致了 AI 驱动的配音服务的开发。认识到内容创作者在与多元化观众分享他们的激情时面临的挑战,YouTube…

Leave a Comment

颠覆性的文本到图像合成:加州大学伯克利分校研究人员利用大型语言模型,在两阶段生成过程中增强了空间和常识推理能力

最近,文本到图像生成方面取得了一些进展,出现了可以合成高度逼真和多样化图像的扩散模型。然而,尽管这些模型具有令人印象深刻的能力,像Stable Diffusion这样的扩散模型在需要空间或常识推理的提示方面仍然需要帮助,导致生成的图片不准确。 为了解决这个挑战,加州大学伯克利分校和加州大学旧金山分校的研究团队提出了一种新的基于LLM的扩散(LMD)方法,可以增强文本到图像生成中的提示理解。他们已经确定了场景,包括否定、数字、属性分配和空间关系,在这些场景中,Stable Diffusion与LMD相比存在不足。 研究人员采用了一种成本效益的解决方案,避免了训练大型语言模型(LLMs)和扩散模型的昂贵和耗时过程。他们将现成的冻结LLMs集成到扩散模型中,形成了一个两阶段的生成过程,提供了增强的空间和常识推理能力。 在第一阶段,LLM被调整为文本引导的布局生成器,通过上下文学习。当给出一个图像提示时,LLM会产生一个由边界框和相应描述组成的场景布局。在第二阶段,扩散模型通过使用一个新颖的控制器来生成图像,由生成的布局进行引导。两个阶段都使用冻结的预训练模型,没有对LLM或扩散模型进行任何参数优化。 LMD除了改进提示理解外,还提供了几个优点。它可以实现基于对话的多轮场景规定,允许用户为每个提示提供额外的澄清和修改。此外,LMD可以处理不受基础扩散模型支持的语言提示。通过将支持多轮对话的LLM纳入其中,用户可以在初始布局生成后查询LLM,并为随后的图像生成接收更新的布局,便于请求添加对象或更改它们的位置或描述等。 此外,通过在上下文学习过程中提供非英语提示的示例和英语布局和背景描述,LMD接受非英语提示,即使基础扩散模型不支持给定的语言也能生成带有英语描述的布局。 研究人员通过与LMD利用的基础扩散模型Stable Diffusion 2.1进行比较,验证了LMD的优越性。他们邀请读者探索他们的工作,进行全面评估和进一步比较。 总之,LMD提出了一种新的方法,以解决扩散模型在准确遵循需要空间或常识推理的提示方面的局限性。通过集成冻结LLMs并采用两阶段生成过程,LMD显著增强了文本到图像生成任务中的提示理解能力。它提供了其他功能,如基于对话的场景规定和处理不支持的语言提示。研究团队的工作为通过集成现成的冻结模型来改善合成图像的准确性和多样性开辟了新的可能性。

Leave a Comment

见识vLLM:一个开源的LLM推理和服务库,可以将HuggingFace Transformers加速24倍

大型语言模型(LLMs)是人工智能(AI)领域的一项重大突破性进展。这些模型(例如 GPT-3)彻底改变了自然语言理解。由于这些模型具有解释大量现有数据和生成类似人类的文本的能力,因此这些模型具有巨大的潜力,可以塑造人机交互和通信的未来并开启新的可能性。然而,尽管 LLMs 取得了巨大的成功,但与此类模型通常相关的一个显著挑战是它们的计算效率低下,即使在最强大的硬件上也会导致性能缓慢。由于这些模型包含数百万乃至数十亿个参数,因此训练此类模型需要广泛的计算资源,内存和处理能力,并非总是可用。此外,这些具有缓慢响应时间的复杂体系结构可能使 LLMs 无法实用于实时或交互式应用程序。因此,解决这些挑战变得至关重要,以释放 LLMs 的全部潜力并使其好处更广泛地可用。 针对这个问题陈述,加州大学伯克利分校的研究人员开发了 vLLM,这是一个开源库,是 LLM 推理和服务的一个更简单,更快速,更便宜的替代方案。目前,大型模型系统组织(LMSYS)正在使用该库来驱动其Vicuna和 Chatbot Arena。通过切换到 vLLM 作为其后端,与最初基于 HuggingFace 转换器的后端相比,研究组织已成功高效地处理峰值流量(比以前多 5 倍),同时使用有限的计算资源并降低高运营成本。目前,vLLM 支持几个 HuggingFace 模型,如 GPT-2,GPT BigCode…

Leave a Comment

来自领英和加州大学伯克利分校的研究人员提出了一种检测人工智能生成的个人资料照片的新方法

随着人工智能(AI)生成的合成和文本到图像生成媒体的大量增加,虚假个人资料的复杂性也随之增加。领英与加州大学伯克利分校合作研究了尖端的检测方法。他们最近的检测方法能够准确地识别人工生成的个人资料图片,正确率达到99.6%,同时将真实图片误判为虚假图片的概率仅为1%。 有两种类型的取证方法可以用于调查这个问题。  基于假设的方法可以发现人工合成的面孔中的异常。这些方法通过学习显著的语义离群值来受益。然而,学习能力合成引擎似乎已经拥有了这些特征,这是一个问题。 基于数据驱动的方法,如机器学习,可以将自然面孔与 CGI 面孔区分开来。当出现在其专业领域之外的图像时,训练过的系统经常会在分类方面遇到困难。  所提出的方法采用混合方法,首先识别计算机生成的面孔中的独特几何属性,然后采用数据驱动的方法来测量和检测它。该方法使用轻量级、易于训练的分类器,并需要对一小组合成面孔进行培训。使用了五种不同的合成引擎来构建41,500个合成面孔,并使用了100,000个真实的领英个人资料图片作为额外的数据。 为了查看实际(公开可用的)LinkedIn个人资料图片与合成生成的(StyleGAN2)面孔的差异,他们将每个平均400张图片并排放置。由于人们的实际照片彼此非常不同,大多数个人资料图片只是普通的头像照片。相比之下,典型的 StyleGAN 面孔具有非常清晰的特征和锐利的眼睛。这是因为 StyleGAN 面孔的眼部位置和瞳距被标准化了。真实的个人资料图片通常关注上半身和肩膀,而 StyleGAN 面孔一般是从脖子以下合成的。他们希望利用社交群体内部和之间存在的相似性和差异。 为了识别 FaceForensics++ 数据集中的深度伪造面孔交换,研究人员将一个单类变分自动编码器(VAE)与一个基线单类自动编码器结合起来。与以前的面孔交换深伪造工作不同,这项工作强调了合成面孔(例如 StyleGAN)。研究人员还使用了一个相当简单且易于训练的分类器,并在相对较少的合成图像上实现了可比的总体分类性能。 他们使用 Generated.photos 和 Stable Diffusion 生成的图像评估了模型的泛化能力。使用生成对抗网络(GAN)生成的 Generated.photos…

Leave a Comment

彻底改变癌症检测:萨里大学在机器学习中推出具有革命性意义的基于草图的物体检测工具

自史前时代以来,人们一直使用素描进行交流和记录。在过去的十年中,研究人员在理解如何使用分类和合成的素描方面取得了巨大的进展,以及更新颖的应用,如建模视觉抽象、样式转移和连续笔画拟合。然而,只有基于素描的图像检索(SBIR)及其细粒度对应物(FGSBIR)研究了素描的表现潜力。最近的系统已经成熟,可用于商业应用,这是素描表现力可能产生重大影响的极好证明。 素描非常引人入胜,因为它们自动捕捉微妙和个人的视觉线索。然而,对人类素描的这些内在特质的研究一直局限于图像检索领域。科学家们首次训练系统使用素描的表现力来完成视觉中最基本的任务:检测场景中的物体。最终产品是一个基于素描检测物体的框架,因此可以将注意力集中在一群斑马中的特定“斑马”(例如吃草的斑马)。此外,研究人员要求模型在以下情况下成功: 在没有预期结果的情况下进入测试(零射击)。 不需要额外的边界框或类标签(如完全监督)。 研究人员进一步规定,基于素描的检测器也以零射击的方式运作,增加了系统的新颖性。在接下来的部分中,他们详细介绍了如何将物体检测从封闭集转换为开放词汇配置。例如,物体检测器使用原型学习而不是分类头,编码查询素描特征作为支持集。然后,在弱监督物体检测(WSOD)环境中,通过所有可想象的类别或实例的原型之间的多类交叉熵损失进行模型训练。物体检测在图像级别上操作,而SBIR是通过对单个对象的素描和照片进行配对训练的。因此,SBIR对象检测器训练需要在对象级别和图像级别特征之间建立桥梁。 研究人员的贡献是: 培养人类素描表现力对物体检测的影响。 基于素描构建的物体检测器可以理解试图传达的信息。 用于传统类别级别和实例级别检测的物体检测器。 一种新的提示学习配置,将CLIP和SBIR结合起来生成一个素描感知的检测器,可以在没有边界框注释或类标签的情况下以零射击方式运行。 结果优于零射击设置中的SOD和WSOD。 研究人员没有从头开始,而是展示了基础模型(如CLIP)和为基于素描的图像检索(SBIR)构建的现有素描模型之间的直观协同作用,它们已经可以优雅地解决该任务。特别是,他们首先在SBIR模型的素描和照片分支上分别进行单独的提示,然后使用CLIP的泛化能力构建高度可泛化的素描和照片编码器。为了确保检测到的框的区域嵌入与SBIR素描和照片的嵌入匹配,他们设计了一种训练范式来调整学习的编码器以进行项目检测。在工业标准物体检测数据集(包括PASCAL-VOC和MS-COCO)上进行测试时,该框架在零射击设置中的表现优于监督(SOD)和弱监督(WSOD)物体检测器。 总之 为了改进物体检测,研究人员积极倡导人类素描表现力。建议的素描启用物体识别框架是一个实例感知和部件感知的物体检测器,可以理解素描中试图表达的信息。因此,他们设计了一种创新的提示学习设置,将CLIP和SBIR结合起来,教育一个不需要边界框注释或类标签的素描奖励检测器。该检测器还被指定为可以在各种用途中以零射击方式运行。另一方面,SBIR是通过对单个物品的素描和照片进行配对训练的。他们使用数据增强方法来增加对破坏的抵抗力和对词汇外的泛化能力,以帮助弥合物体和图像级别之间的差距。在零射击设置中,所得框架的表现优于监督和弱监督物体检测器。

Leave a Comment

你口袋里的艺术家伙伴:SnapFusion 是一种人工智能方法,将扩散模型的能力带到移动设备上

扩散模型。如果您一直关注人工智能领域的进展,您一定经常听到这个术语。它们是使生成式人工智能方法革命成为可能的关键。我们现在有了可以在几秒钟内使用文本提示生成逼真图像的模型。它们已经革新了内容生成、图像编辑、超分辨率、视频合成和3D资产生成。 尽管这种印象深刻的性能并不便宜。扩散模型在计算要求方面非常苛刻。这意味着您需要真正高端的GPU才能充分利用它们。是的,也有尝试让它们在本地计算机上运行,但即使如此,您也需要高端计算机。另一方面,使用云提供商可能是一种替代方案,但在这种情况下,您可能会冒着隐私风险。 然后,我们还需要考虑到的是即时性。对于大多数人来说,他们花在手机上的时间比花在计算机上的时间更长。如果您想在移动设备上使用扩散模型,那么祝您好运,因为它对设备本身的有限硬件功率要求过高。 扩散模型是下一个大事,但在将它们应用于实际应用程序之前,我们需要解决它们的复杂性。已经有多次尝试专注于加速移动设备上的推理,但它们没有实现无缝的用户体验或定量评估生成质量。好吧,这是一个故事,直到现在,因为我们有一个新的玩家进入领域,它的名字叫做SnapFusion。 SnapFusion是首个在移动设备上生成图像的文本到图像扩散模型,时间不到2秒。它优化了UNet架构并减少了去噪步骤的数量,以提高推理速度。此外,它使用了不断发展的训练框架,引入了数据蒸馏管道,并在步骤蒸馏过程中增强了学习目标。 SnapFusion概览。来源: https://arxiv.org/pdf/2306.00980.pdf 在对结构进行任何更改之前,SnapFusion的作者首先研究了SD-v1.5的架构冗余性,以获得高效的神经网络。然而,由于高昂的培训成本,将传统剪枝或架构搜索技术应用于SD是具有挑战性的。架构的任何更改都可能导致性能下降,需要进行大量的微调和大量的计算资源。因此,这条路被堵住了,他们不得不开发替代解决方案,可以在逐渐提高其效率的同时保持预训练UNet模型的性能。 为了增加推理速度,SnapFusion专注于优化UNet架构,这是有条件扩散模型中的瓶颈。现有的作品主要关注后训练优化,但是SnapFusion确定了架构冗余并提出了一个不断发展的训练框架,其表现优于原始的稳定扩散模型,同时显著提高了速度。它还引入了一个数据蒸馏管道,以压缩和加速图像解码器。 SnapFusion包括一个强大的训练阶段,在该阶段应用随机前向传播以执行每个交叉关注和ResNet块,并具有一定的概率。这种强大的训练增强确保网络对架构排列具有容忍性,从而允许准确评估每个块和稳定的架构演变。 通过使用通过通道缩减获得的解码器的合成数据来训练解码器,可以实现高效的图像解码器。该压缩解码器具有显著较少的参数,并且比SD-v1.5的解码器更快。蒸馏过程涉及使用文本提示生成两个图像,一个来自高效解码器,另一个来自SD-v1.5,以获得从SD-v1.5的UNet中获得的潜在表示。 提出的阶段蒸馏方法包括一个香草蒸馏损失目标,旨在最小化学生UNet的预测和教师UNet的嘈杂潜在表示之间的差异。此外,引入了CFG感知蒸馏损失目标,以提高CLIP分数。CFG引导预测在教师和学生模型中使用,其中CFG比例是随机抽样的,以在训练期间在FID和CLIP分数之间提供权衡。 SnapFusion生成的样本图像。来源:https://arxiv.org/pdf/2306.00980.pdf 由于改进的阶段蒸馏和网络架构开发,SnapFusion可以在移动设备上不到2秒的时间内从文本提示生成512×512像素的图像。生成的图像展示了与最先进的稳定扩散模型相似的质量。

Leave a Comment

认识 MeLoDy:一种高效的文本到音频扩散模型,用于音乐合成

音乐是由和谐、旋律和节奏组成的艺术,渗透到人类生活的各个方面。随着深度生成模型的蓬勃发展,音乐生成近年来受到了广泛关注。作为一类重要的生成模型,语言模型(LMs)在建模复杂的长期上下文关系方面表现出了非凡的建模能力。基于此,AudioLM和许多后续工作成功地将LMs应用于音频合成。与基于LM的方法相似,扩散概率模型(DPMs)作为另一类竞争性的生成模型,也表现出了合成语音、声音和音乐的卓越能力。 然而,从自由形式文本生成音乐仍然具有挑战性,因为允许的音乐描述可以是多种多样的,与流派、乐器、节奏、情境,甚至一些主观感受有关。 传统的文本到音乐生成模型通常关注于特定的属性,如音频延续或快速采样,而有些模型则优先考虑稳健的测试,这有时是由领域内的专家(例如音乐制作人)进行的。此外,大多数模型都是在大规模的音乐数据集上训练的,并且展示了最新的生成性能,具有高保真度和对文本提示各种方面的忠实度。 然而,这些方法的成功,如MusicLM或Noise2Music,带来了高计算成本,这将严重妨碍它们的实用性。相比之下,基于DPMs构建的其他方法使高质量音乐的有效采样成为可能。然而,他们所展示的案例相对较小,并且显示了有限的内部动态。为了实现可行的音乐创作工具,生成模型的高效性至关重要,因为它有助于与人类反馈进行交互式创作,正如先前的研究所述。 尽管LMs和DPMs都显示出了很好的结果,但相关问题并不是是否应该优先选择其中一种,而是是否可能同时利用两种方法的优势。 根据上述动机,提出了一种称为MeLoDy的方法。该策略的概述如下图所示。 在分析MusicLM的成功后,作者利用MusicLM中最高级别的LM,称为语义LM,来模拟音乐的语义结构,确定旋律、节奏、动态、音色和节奏的整体安排。在这种语义LM的条件下,他们利用DPMs的非自回归性质,借助成功的采样加速技术,高效有效地模拟声学。 此外,作者提出了所谓的双通道扩散(DPD)模型,而不是采用经典的扩散过程。事实上,对原始数据进行处理会指数增加计算费用。提出的解决方案是将原始数据降低到低维潜在表示。减少数据的维数会减少对操作的影响,从而减少模型运行时间。随后,原始数据可以通过预先训练的自编码器从潜在表示中重构出来。 模型产生的一些输出样本可在以下链接中获得:https://efficient-melody.github.io/。目前该代码尚未发布,这意味着目前无法在线或本地尝试它。 这就是MeLoDy的概述,这是一种生成最先进音质的高效LM引导扩散模型。如果您有兴趣,可以在下面的链接中了解更多关于这种技术的信息。

Leave a Comment

谷歌研究人员推出了AudioPaLM:一款改变语音技术的游戏规则——一种新的大型语言模型,具有史无前例的准确听、说和翻译能力

大型语言模型(LLMs)近几个月来备受瞩目。作为人工智能领域最好的进展之一,这些模型正在改变人类与机器交互的方式。由于每个行业都在采用这些模型,它们是人工智能接管世界的最佳例证。 LLM在生成文本方面表现出色,尤其是在涉及复杂交互和知识检索的任务中,最著名的例子是OpenAI开发的基于GPT 3.5和GPT 4转换器架构的ChatGPT聊天机器人。除了文本生成外,像CLIP(对比性语言-图像预训练)这样的模型也已经被开发出来,用于图像生成,可以根据图像内容创建文本。 为了在音频生成和理解方面取得进展,谷歌的研究人员介绍了AudioPaLM,这是一个大型语言模型,可以处理语音理解和生成任务。 AudioPaLM结合了两个现有模型的优点,即PaLM-2模型和AudioLM模型,以产生一个统一的多模态架构,可以处理和生成文本和语音。这使得AudioPaLM可以处理各种应用,从语音识别到语音转文本。 虽然AudioLM擅长维护诸如讲话者身份和语气之类的语言信息,但是PaLM-2,即基于文本的语言模型,专门处理文本特定的语言知识。通过结合这两个模型,AudioPaLM利用了PaLM-2的语言专业知识和AudioLM的语言信息保留,从而更全面地理解和创建文本和语音。 AudioPaLM利用联合词汇表,可以使用有限的离散标记表示语音和文本。将这个联合词汇表与标记任务描述相结合,可以在各种基于语音和文本的任务上训练单个仅解码器模型。传统上,语音识别,文本到语音合成和语音到语音翻译等任务是由分开的模型处理的,现在可以统一到单个架构和训练过程中。 在评估中,AudioPaLM在语音翻译方面的表现超过了现有系统。它展示了零-shot语音到文本翻译的能力,可以准确地将语音翻译为以前未遇到过的语言,从而为更广泛的语言支持开辟了可能性。AudioPaLM还可以基于简短的语音提示跨语言传递声音,并可以捕捉和复制不同语言中的不同声音,从而实现语音转换和适应。 该团队提到的关键贡献是: AudioPaLM利用了文本预训练中PaLM和PaLM-2s的能力。 它在自动语音翻译和语音到语音翻译基准方面取得了SOTA结果,并在自动语音识别基准方面表现出色。 该模型通过声音传递实现了声音到声音的翻译,超越了现有方法在语音质量和声音保留方面。 AudioPaLM通过执行未见过的语言组合的自动语音翻译来展示了零-shot能力。 总之,AudioPaLM是一个统一的LLM,通过利用基于文本的LLM的能力和结合音频提示技术来处理语音和文本,是LLM列表中值得期待的新成员。

Leave a Comment

15个最佳AI工具,帮助你获得下一个梦想职位(2023年)

Resumaker.ai Resumaker.ai是一个能够帮助人们在几分钟内制作简历的网站。该平台提供了多个可定制的、由设计师制作的简历模板以及直观的工具,帮助他们找到梦想的工作。与其他简历构建工具不同,Resumaker.ai的人工智能(AI)引擎通过自动完成和填写用户的数据来简化简历构建过程。Resumaker.ai使用SSL加密和其他措施来保护用户数据免受未经授权的访问。您可以使用该工具的撰写指南和建议来设计一份脱颖而出的简历。用户可以修改他们的简历以反映所发布职位的要求,提供关于自己的概述,并利用数字来支持他们的资格要求。 Interviewsby.ai 求职者可以使用由人工智能驱动的平台Interviewsby.ai来为面试做好准备。ChatGPT是一种能够识别和解释人类语言的语言模型,在定制用户的模拟面试期间提供实时反馈。通过输入有关所需就业的信息,该应用程序可以为用户生成适当和现实的面试问题。创建问题的能力消除了用户使用过时或不相关材料进行培训的可能性。用户可以在Interviewsby.ai中掌握他们的面试技巧,并获得有关他们优点和缺点的即时反馈。每个用户都会收到具体的反馈,关注他们的优势和劣势。 Existential 通过评估用户的兴趣、才能和价值观,Existential是一款AI驱动的职业探索工具,为用户的职业道路提供具体建议。它的目的是为客户指引提供刺激、挑战和满意的职业。该应用程序具有简单的发现过程:回答有关他们理想工作的某些问题后,程序将为用户提供最符合他们兴趣的推荐。在承诺任何事情之前,用户可以了解更多有关这些选择,并查看它们是否符合他们的目标。Existential旨在赋予个人塑造自己的命运,发现他们工作中的意义。 Jobscan 为了提高他们获得面试的几率,求职者应该使用Jobscan ATS简历检查器和由人工智能(AI)提供支持的职位搜索工具。该程序使用专有的人工智能算法来检查职位描述和申请人的简历,以分离出相关的资格。在分析申请人的简历后,该程序会生成一个匹配率报告,详细说明申请人的优势和改进领域。使用Jobscan ATS简历检查器,您可以优化您的简历,增加您被注意到的机会。 Aragon 人工智能(AI)驱动Aragon专业头像,这个程序让用户无需拜访摄影师、花时间化妆或等待数天进行修饰,就能拍摄出精美的头像。用户上传10张自拍照片,该工具即可立即返回40张高清照片。此外,该应用程序通过AES256加密数据来保护用户的隐私,并仅将其存储在获得SOC 2和ISO 27001认证的服务提供商处。请注意,该服务不适用于18岁以下的任何人使用,因为这违反了服务条款。 Practice Interview 求职者可以使用Practice Mock Interviews with AI为潜在雇主的面试做好准备。该应用程序使用由人工智能驱动的聊天机器人技术,帮助用户为一百多个职业的面试做好准备。使用这个练习面试无需创建账户或提供个人信息。用户可以注册邮件列表,并练习在营销、软件工程、行政、建筑、销售、客户服务、运营、金融和会计、工程、分析、教学、艺术、酒店业和餐饮服务等各种职位的面试。 NetworkAI 为了帮助客户快速高效地扩展他们的专业网络,Wonsulting开发了NetworkAI,一种AI驱动的网络平台。NetworkAI采用尖端的机器学习技术构建个性化的LinkedIn介绍信息,这些信息听起来像是一个真实人士为用户的理想职业、现有职位和期望业务编写的。此外,它可以让人们跟踪他们的进展并标记他们喜欢的内容。用户可以通过访问模板、课程和成功案例等资源进一步增强他们的网络能力。NetworkAI提供三种不同的代币包供用户选择来创建问候信息。最初尝试该产品是免费的(提供10个免费代币)。NetworkAI是一个有用的工具,帮助那些想扩展他们的专业网络并建立有意义的联系。 FutureFinder AI…

Leave a Comment

塑造人工智能未来:视觉-语言预训练模型及其在单模态和多模态任务中的作用综述

在机器智能研究的最新发表论文中,一组研究人员深入探讨了视觉语言预训练(VLP)及其在多模态任务中的应用。该论文探讨了单模态训练的思想以及它与多模态适应性的不同之处。然后,该报告展示了VLP的五个重要领域:特征提取、模型架构、预训练目标、预训练数据集和下游任务。然后,研究人员回顾了现有的VLP模型以及它们如何在不同领域上进行适应和发展。 人工智能领域一直试图以与人类相同的方式对模型进行训练,让它们像人类一样感知、思考和理解模式和细微差别。各种尝试已经被做出来,以尽可能多地纳入数据输入领域,如视觉、音频或文本数据。但大多数这些方法都试图以单模态的方式解决“理解”的问题。 单模态方法是一种方法,在这种方法中,您只考虑一个方面来评估一种情况,例如在视频中,您只关注其音频或转录,而在多模态方法中,您尝试针对尽可能多的可用特征,并将它们纳入模型中。例如,在分析视频时,您会考虑音频、转录和说话者的面部表情,以真正“理解”上下文。 多模态方法本身具有挑战性,因为它需要大量的资源,并且需要大量的标记数据来训练能力强的模型。基于变压器结构的预训练模型通过利用自监督学习和附加任务从大规模无标记数据中学习通用表示来解决了这个问题。 以单模态方式预先训练模型,例如在NLP中的BERT,已经通过有限标记数据的微调表现出了显着的有效性。研究人员通过将相同的设计理念扩展到多模态领域来探索视觉语言预训练(VLP)的可行性。VLP使用预训练模型在大规模数据集上学习模态之间的语义对应关系。 研究人员回顾了VLP方法在五个主要领域中取得的进展。首先,他们讨论了VLP模型如何预处理和表示图像、视频和文本以获得相应的特征,并突出了使用的各种模型。其次,他们还探讨了单流和双流融合以及仅编码器与编码器-解码器设计的可用性和使用情况。 本文还更多地探讨了VLP模型的预训练,将其归类为完成、匹配和特定类型。这些目标很重要,因为它们有助于定义通用的视觉语言表示。研究人员还概述了预训练数据集的两个主要类别:图像语言模型和视频语言模型。该论文强调多模态方法如何帮助在理解上下文和生成更好映射内容方面实现更好的理解和准确性。最后,本文介绍了VLP中下游任务的目标和细节,强调它们在评估预先训练模型的有效性方面的重要性。 https://link.springer.com/content/pdf/10.1007/s11633-022-1369-5.pdf https://link.springer.com/content/pdf/10.1007/s11633-022-1369-5.pdf 本文提供了SOTA VLP模型的详细概述。它列出了这些模型并强调了它们的主要特点和性能。提及和覆盖的模型是前沿技术发展的坚实基础,也可作为未来发展的基准。 根据研究论文,VLP架构的未来看起来很有前途和可靠性。他们提出了各种改进领域,例如整合声学信息、知识和认知学习、快速调整、模型压缩和加速以及域外预训练。这些改进领域旨在激发新时代的研究人员在VLP领域取得突破性进展。

Leave a Comment