Press "Enter" to skip to content

Tag: Generative AI

Meta AI推出MusicGen:一种简单且可控的音乐生成模型,可由文本和旋律两种方式进行提示

从文本描述中创建音乐作品,例如“带有吉他即兴的90年代摇滚歌曲”,就是文本到音乐。由于它涉及模拟长程过程,因此制作音乐是一项困难的任务。音乐与语音不同,需要利用整个频率范围。这需要更频繁地采样信号;例如,音乐录音通常使用44.1 kHz或48 kHz的采样率,而不是语音的16 kHz。此外,多个乐器的和声和旋律组合形成了音乐中复杂的结构。人类听众对于不协调非常敏感。因此,在创作音乐时几乎没有出错的机会。  最后,对于音乐制作人来说,通过使用各种工具(包括键、乐器、旋律、流派等)控制生成过程至关重要。最近在音频合成、序列建模和自监督音频表示学习方面的发展使得创造这样的模型的框架成为可能。最近的研究建议将音频信号表示为表示同一信号的几个离散令牌流,以使音频建模更易于处理。这既实现了有效的音频建模,又实现了高质量的音频生成。然而,这需要联合建模多个依赖的并行流。  研究人员建议使用延迟方法或在不同流之间添加偏移量来对多个并发语音令牌流进行建模。其他人则建议使用自回归模型层次结构对音乐部分进行建模,并使用多个粒度的离散令牌序列进行显示。与此同时,几位研究人员使用类似的策略生成歌唱伴奏。研究人员建议将此问题分为两个阶段:(i)仅对初始令牌流进行建模,(ii)使用后置网络以非自回归方式联合建模其余流。Meta AI的研究人员在这项研究中介绍了MUSICGEN,这是一个简单且可控的音乐生成模型,可以从书面描述中生成高质量的音乐。  作为先前研究的概括,他们提供了一个通用框架来模拟多个声学令牌流。他们还结合了无监督旋律调节,使模型能够生成符合特定和声和旋律结构的音乐,以增加所创建样本的可控性。他们对MUSICGEN进行了深入的研究,并表明相比于最佳基线的80.5,它的主观评分为84.8。他们还提供了解剖研究,以阐明每个组件对整个模型性能的重要性。  最后,人类评估表明,MUSICGEN生成的样本质量高,更符合特定和声结构的旋律,并遵循书面描述。他们的参与:(i)他们提供了一种简单而有效的方法来以32 kHz生成高质量的音乐。他们演示了MUSICGEN如何使用单阶段语言模型和成功的码本交错技术创建可靠的音乐。 (ii)他们提供了一个单一模型来执行文本条件生成和旋律条件生成,并展示生成的音频与文本调节信息一致,并符合给定的曲调。 (iii)他们提供了关于其方法基本设计决策的深入评估,既客观又主观。MusicGen的PyTorch代码实现可在GitHub上的AudioCraft库中获得。

Leave a Comment

生成式人工智能每年可以为经济贡献4.4万亿美元:麦肯锡

生成式人工智能 (Generative AI) 是一项开创性技术,使机器能够自主地创建内容,将彻底改变全球经济。麦肯锡最近的一份报告显示,生成式人工智能对生产率的影响可能每年为各行业和部门增加数万亿美元的价值。生成式人工智能具有自动化工作活动和增强个体工人能力的能力,对经济增长和转型具有巨大潜力。 生成式人工智能对经济增长的影响 麦肯锡的报告估计,生成式人工智能在63个分析用例中每年可以贡献2.6万亿美元至4.4万亿美元。这一惊人的潜在价值突显了这项技术对全球经济的巨大影响。为了让人们了解这一点,2021年英国的全部GDP总额为3.1万亿美元,这显示了生成式人工智能潜在影响的重大规模。生成式人工智能可以使人工智能的总体影响提高15%至40%。它与现有的人工智能技术的整合进一步放大了其变革能力。考虑到将生成式人工智能嵌入超出分析用例的软件的影响,估计价值可能会翻倍,提供更加实质性的经济利益。 集中价值:四个关键领域 大约75%的生成式人工智能用例产生的价值来自以下四个关键领域: 客户运营:生成式人工智能可以支持客户互动,改善客户服务,提高整体客户体验。 市场营销:通过为营销和销售目的生成创意内容,生成式人工智能帮助企业简化其广告活动。它还可以通过新颖的方式与客户进行互动。 软件工程:生成式人工智能的自动化能力使得该技术可以根据自然语言提示起草计算机代码,从而显著加快软件开发过程。 研究和开发 (R&D):生成式人工智能在加速创新方面发挥了关键作用,通过协助思想生成和原型制作,彻底改变了研发领域。 还阅读:18个必备的市场营销自动化工具,以简化您的营销工作! 广泛的范围:分析生成式人工智能的用例 麦肯锡对生成式人工智能的分析涵盖了16个业务功能,并研究了63个具体用例。这包括AI技术可以有效解决特定业务挑战的机会。这些用例产生可衡量的结果,强调了在各种行业和部门应用生成式人工智能的实际好处。 还阅读:10个必备的AI客户细分工具,以实现有效的营销 生成式人工智能将改变的行业 银行业:银行业有望从生成式人工智能中获得重大影响,如果确定的用例得到充分实施,则潜在价值范围为每年2000亿至3400亿美元。 高科技:在高科技领域,生成式人工智能具有巨大的推动创新和提高生产率的潜力,从而大大影响收入的增长。 生命科学:生命科学,包括制药和生物技术,将从生成式人工智能加速研究和药物发现过程中受益,从而最终改善医疗保健结果。 零售和消费品:零售和消费品行业是另一个将从生成式人工智能中受益的行业。该领域的潜在影响范围为每年4000亿至6600亿美元。 转变工作动态:增强工人 生成式人工智能有能力通过自动化增强个体工人的能力,从而改变工作动态。与其他先进技术相结合,现有的生成式人工智能技术可以自动化目前占员工时间60%到70%的工作活动。这远远超过以前的估计,表明自动化的潜力有了显著增加。 还阅读:了解人工智能和机器学习如何帮助HR自动化…

Leave a Comment

锤炼于火焰:初创公司融合生成式人工智能和计算机视觉技术,以应对野火

在灾难性野火肆虐时,当加利福尼亚的天空变成橙色,一家初创公司融合了计算机视觉和生成式人工智能来进行反击。 “随着2020年野火的发生,这件事变得非常个人化,因此我们向消防官员询问了我们能帮忙的方式,”总部位于硅谷的计算机视觉领导者Chooch的土耳其出生的首席执行官Emrah Gultekin说。 他们得知,加利福尼亚的公用事业和消防部门每周需要处理多达2,000个来自现有野火检测系统的错误预测。这些错误预测来自雾、雨和他们所使用的摄像头网络的镜头上的污迹。 因此,在一项试点项目中,Chooch将其火灾检测软件链接到摄像头网络上。它每15分钟分析一次快照,寻找烟雾或火灾的迹象。 生成式人工智能提高计算机视觉的精度 然后,由Emrah的兄弟Hakan Gultekin领导的团队——一位软件专家和Chooch的首席技术官——想到了一个主意。 他们建立了一个生成式人工智能工具,自动创建每个图像的描述,帮助审阅者分辨出烟雾的存在。错误预测从每周2,000个下降到了8个。 Chooch可以在天气不好或摄像头镜头不清洁的情况下检测到烟雾和火灾。 “消防局长对于在他们的监控中心推出这项技术以及它可以实现的成果感到兴奋,”Chooch的总裁Michael Liou在最近的网络研讨会上详细介绍了该项目。 Chooch的生成式人工智能工具为加利福尼亚州肯恩县的消防员提供了一个仪表盘,他们可以实时在智能手机和电脑上收到警报,以便快速检测野火。 2020年,加利福尼亚州发生了9,900起野火,烧毁了4.3万英亩的森林,造成了190亿美元的损失。防止一场火灾失控会支付野火检测系统50年的费用,该公司估计。 对生成式人工智能的未来展望 Chooch的首席执行官表示,这也是未来的形态。 Emrah Gultekin “大型语言模型和计算机视觉的融合将带来更强大、更准确、更易于部署的产品,”Gultekin说。 例如,公用事业可以将软件连接到无人机和固定摄像头,以便检测电容器上的腐蚀或植被侵入电力线路的情况。 该技术将在Chooch参加一个价值1100万美元的Xprize挑战中得到进一步验证,该挑战旨在检测和打击野火。赞助商包括PG&E和洛克希德·马丁公司,后者正在与NVIDIA合作建立一个人工智能实验室,以预测和响应野火。 Chooch软件的PC和智能手机仪表盘可以实时更新消防员的警报。 Chooch将其技术应用于制造、零售和安全等多个挑战。 例如,一家制造商使用Chooch的模型在产品发货之前检测缺陷。仅消除20%的故障就可以多次支付系统的费用。 合作的开始…

Leave a Comment

扫描并查看这些酷炫的人工智能生成的二维码

在人工智能(AI)艺术领域,我们见证了令人瞠目结舌的进步,从令人毛骨悚然的逼真 deepfake 视频到令人惊叹的专辑封面等。然而,在这些非凡的创新中,最近的一项发展引人注目,引起人们的想象力:AI 生成的 QR 码。尽管它们看起来似乎没有什么意义,但这些 QR 码已经演变成了迷人的艺术品,吸引眼球并完美地发挥了它们的功能。Reddit 和 Twitter 用户展示了一系列使用 Stable Diffusion 和其他生成 AI 工具设计的 QR 码设计。在继续阅读下文时别忘了扫描它们。 另请阅读:如何使用生成 AI 免费创建美丽的图片? 功能艺术的诞生 QR 码通常与链接到网站或提供信息相关联。Reddit 用户…

Leave a Comment

直播自台北: NVIDIA CEO 发布面向各行业的 Gen AI 平台

在疫情以来的首次现场主题演讲中,NVIDIA的创始人兼CEO黄仁勋今天在台北举行的COMPUTEX大会上宣布了一些平台,这些平台可以帮助公司乘风破浪,参与到一波历史性的生成式人工智能浪潮中,这个浪潮正在改变从广告到制造业再到电信等行业。 “我们回来了,”黄仁勋在他的家中厨房进行了几年的虚拟主题演讲之后在舞台上大声喊道。“我已经有将近四年没有公开演讲了–祝我好运!” 他向约3500名观众演讲了近两个小时,介绍了加速计算服务、软件和系统,这些都使新的商业模式成为可能,也让现有的商业模式更加高效。 “加速计算和人工智能标志着计算机的重新发明,”黄仁勋说道,他在过去一周在家乡的旅行每天都被当地媒体追踪报道。 为了展示它的强大,他使用了他所在的巨大的8K墙,展示了一个文本提示,生成了一首主题歌,可以随意地唱,就像任何卡拉OK歌曲一样。黄仁勋偶尔用他的家乡语言和观众开玩笑,并短暂地带领观众唱了这首新歌。 “现在我们处于一个新的计算时代的临界点,加速计算和人工智能已经被全球几乎所有的计算和云计算公司所接受,”他说道,指出现在有40,000家大型公司和15,000家初创公司使用NVIDIA技术,去年CUDA软件下载量达到2500万次。 主题演讲的重要新闻公告 Grace Hopper提供大内存超级计算机,用于生成式人工智能。 模块化参考架构可以创建100多个加速服务器变体。 WPP和NVIDIA在Omniverse中创建数字广告内容引擎。 SoftBank和NVIDIA在日本建立5G和生成式人工智能数据中心。 网络技术加速基于以太网的人工智能云。 NVIDIA ACE for Games利用生成式人工智能为角色赋予生命。 全球的电子制造商都在使用NVIDIA人工智能。 企业人工智能的新引擎 对于需要最佳人工智能性能的企业,他推出了DGX GH200,一个大内存人工智能超级计算机。它使用NVIDIA NVLink将多达256个NVIDIA GH200 Grace Hopper超级芯片组合成一个单一的数据中心大小的GPU。…

Leave a Comment

Google研究人员推出了StyleDrop:一种人工智能方法,可以使用文本到图像模型忠实地追随特定样式来合成图像

谷歌的一组研究人员最近与 Muse 的快速文本到图像模型合作开发了创新的神经网络 StyleDrop。这项开创性的技术允许用户生成忠实地体现特定视觉风格的图像,捕捉细微的差别和复杂性。通过选择具有所需风格的原始图像,用户可以将其无缝地转移到新图像,同时保留所选择的风格的所有独特特征。StyleDrop 的多功能性还可用于与完全不同的图像一起使用,使用户能够将儿童绘画转换成风格化的标志或角色。 StyleDrop 由 Muse 先进的生成视觉转换器驱动,使用用户反馈、生成图像和 Clip 分数的组合进行训练。神经网络是通过最小的可训练参数进行微调的,仅占总模型参数的不到 1%。通过迭代训练,StyleDrop 不断提高生成图像的质量,确保在短短几分钟内获得令人印象深刻的结果。 这个创新工具对于寻求开发其独特视觉风格的品牌来说是非常宝贵的。有了 StyleDrop,创意团队和设计师可以高效地以其所偏爱的方式原型设计想法,使其成为不可或缺的资产。对 StyleDrop 的性能进行了广泛的研究,将其与其他方法(如 DreamBooth、Imagen 上的文本反转和 Stable Diffusion)进行了比较。结果一致展示了 StyleDrop 的卓越性,提供了高质量的图像,紧密地符合用户指定的风格。 StyleDrop 的图像生成过程依赖于用户提供的基于文本的提示。StyleDrop…

Leave a Comment

从单词到片段:Runway Gen-2向所有人敞开大门

Runway Gen-2是一款创新的在线文本转视频工具,近期备受关注。最初只能通过封闭的Discord服务器使用,现在强大的Gen-2工具已经通过公司的网站对所有人开放。让我们来了解一下Runway Gen-2的特点,探索它的限制,并突出它为用户提供的创造潜力。 还要阅读:NVIDIA的Neuralangelo让2D视频以惊人的3D形式呈现! 基于文本提示生成剪辑 Runway Gen-2使用户能够基于简单的文本提示生成4秒的视频剪辑。虽然该工具的主要重点是将文本转换为视觉内容,但它不包括任何声音。这些剪辑类似于动画GIF,提供了一种独特而简洁的方式来让想法有生命力。 向公众开放:更容易访问 之前,Runway的Discord服务器上的私人频道是Gen-2工具的唯一使用方式,现在该工具已对公众开放。有兴趣使用Runway Gen-2的用户必须在Runway网站上创建一个免费帐户,并导航至app.runwayml.com/ai-tools/gen-2。这个向公众开放的转变确保了全球用户更容易地获取该工具。 用户体验和限制 这是文本转视频工具的工作原理。在输入提示或上传图像以获取灵感并点击“生成”按钮后,用户可以将其请求放入处理队列中。该工具会提供视频创建进度的更新,指示完成百分比。但是,可以免费生成的视频数量是有限制的。当前的上限设置为60秒(相当于15个剪辑),敦促用户升级到付费帐户以获得额外的功能。 付费功能和标准帐户 虽然Runway Gen-2的免费版本提供了有限的视频生成,但Runway为寻求更广泛能力的用户提供了标准帐户选项。用户可以每月支付15美元或每年支付144美元(预付)来访问一系列高级功能。这包括更高分辨率的视频、去除Runway的水印以及每月增加的视屏上限为125秒。 人物再现的限制和准确性 Runway Gen-2的一个不足之处在于准确地重新创造出特定的人物。尝试生成以知名卡通人物Peppa Pig、Paddington Bear和Blue from Blue’s Clues为主角的视频通常会导致不准确的卡通表现。然而,该工具在创建各种“酒吧”活动中涉及的机器人图像方面表现出色。这显示了它在某些情况下产生吸引人的视觉内容的能力。 还要阅读:Nvidia推出构建AI驱动的真实游戏角色的工具 创造潜力:将剪辑拼接在一起…

Leave a Comment

探索生成式人工智能在对话体验中的应用:使用亚马逊Lex、Langchain和SageMaker Jumpstart进行介绍

在当今快节奏的世界中,客户期望企业提供快速高效的服务但当询问量超过了用于解决它们的人力资源时,提供优质客户服务可能会面临重大挑战然而,随着生成式人工智能(生成[…])的进步,企业可以在提供个性化和高效的客户服务的同时应对这一挑战

Leave a Comment