Press "Enter" to skip to content

四海吧 Posts

见面Brain2Music:一种使用功能磁共振成像(fMRI)捕获的脑活动重建音乐的人工智能方法

谁不喜欢音乐呢?你是否曾经记得一首歌的节奏,但却想不起歌词,也无法找出歌曲的名字?谷歌和大阪大学的研究人员一起找到了一种方法,使用功能性磁共振成像(fMRI)从脑活动中重构音乐。根据音乐的流派、乐器和情绪,生成音乐。 谷歌和大阪大学的研究人员使用深度神经网络生成音乐,通过预测高级、语义结构化的音乐来生成音乐特征,如fMRI扫描。根据人类听觉皮层的活动,可以预测音乐的不同组成部分。研究人员使用了JukeBox进行实验,该系统生成具有高时间连贯性的音乐,其中包含可预测的特征。使用低比特率的压缩神经音频编解码器生成高质量音频。 从fMRI生成音乐需要中间阶段,其中包括通过选择音乐嵌入来表示音乐。他们使用的架构包括音乐嵌入,用于随后的音乐生成的瓶颈。如果预测的音乐嵌入接近受试者听到的原始刺激的音乐嵌入,则使用MusicLM(音乐生成模型)生成类似原始刺激的音乐。 音乐生成模型MusicLM由名为MuLan和w2v-BERT-avg的音频派生嵌入组成。在侧前额皮质中,MuLan往往比w2v-BERT-avg具有更高的预测性能,因为它捕捉到了人脑中的高级音乐信息处理。与音频派生嵌入相比,音乐的抽象信息在听觉皮层中以不同的方式表示。 MuLan嵌入通过生成模型转换为音乐。模型中恢复了嵌入中不包含的信息。在检索技术中,重建的音乐也是音乐性的,因为它直接从音乐数据集中提取。这确保了更高水平的重建质量。研究人员使用fMRI响应数据的线性回归。该方法也存在局限性,包括在使用fMRI数据的线性回归中的确切信息量的不确定性。 研究人员表示,他们未来的工作包括从个体的想象中重构音乐。当用户想象一段音乐片段时,解码分析会考察想象能否被准确重构。这将符合实际的读心术。不同音乐专业背景的多样化受试者存在,需要通过比较进行多个重构属性。比较受试者之间的重构质量,其中包括专业音乐家,可以为他们的观点和理解差异提供有用的见解。 他们的研究工作只是将您纯粹的、富有想象力的思想变为现实的第一步。这也将导致仅凭空想象生成全息图像的可能性。在这一领域的进步还将从生物学角度提供定量解释。

Leave a Comment

一种扩散规则扩散:调节预训练扩散模型用于多模态图像合成

图像生成AI模型在过去几个月里席卷了领域。你可能听说过中途、DALL-E、ControlNet或Stable dDiffusion。这些模型能够根据给定的提示生成逼真的照片,无论给定的提示有多奇怪。你想看到皮卡丘在火星上跑来跑去吗?随便找一个这些模型,让它为你做,你就能得到。 现有的扩散模型依赖于大规模的训练数据。当我们说大规模时,是真的很大。例如,Stable Diffusion本身是在超过25亿个图像-标题对上进行训练的。所以,如果你计划在家里训练自己的扩散模型,你可能要重新考虑一下,因为训练这些模型在计算资源方面非常昂贵。 另一方面,现有的模型通常是无条件的,或者以文本提示等抽象格式为条件。这意味着它们在生成图像时只考虑一个单一的因素,并且无法传递像分割图这样的外部信息。结合它们对大规模数据集的依赖,意味着大规模生成模型在我们没有大规模数据集进行训练的领域中的适用性受到限制。 克服这种限制的一种方法是针对特定领域对预训练模型进行微调。然而,这需要访问模型参数和大量的计算资源来计算整个模型的梯度。此外,微调一个完整的模型限制了它的适用性和可扩展性,因为每个新的领域或模态组合都需要新的全尺寸模型。此外,由于这些模型的体积庞大,它们往往很快就会过度拟合到它们进行微调的较小数据子集上。 也可以从头开始训练模型,并根据所选择的模态进行调节。但同样,这受限于训练数据的可用性,并且从头训练模型非常昂贵。另一方面,人们试图在推理时引导预训练模型朝着期望的输出方向发展。他们使用来自预训练分类器或CLIP网络的梯度,但这种方法会减慢模型的采样速度,因为它在推理过程中增加了很多计算。 如果我们能够使用任何现有的模型,并在不需要非常昂贵的过程的情况下对其进行调节,那么该怎么办呢?如果我们不去繁琐而耗时的改变扩散模式,它是否仍然可以被调节?答案是肯定的,让我来向你介绍。 多模态调节模块的用例。来源:https://arxiv.org/pdf/2302.12764.pdf 所提出的方法,多模态调节模块(MCM),是一个可以集成到现有扩散网络中的模块。它使用一个小型的类似扩散网络的网络,在每个采样时间步骤上训练,以调节原始扩散网络的预测,使生成的图像符合提供的条件。 MCM不需要对原始扩散模型进行任何形式的训练。唯一需要训练的是调节网络,它是小规模的,训练起来不昂贵。这种方法在计算上效率高,所需的计算资源比从头开始训练扩散网络或微调现有扩散网络要少,因为它不需要为大型扩散网络计算梯度。 此外,MCM即使在没有大量训练数据的情况下也能很好地泛化。它不会减慢推理过程,因为不需要计算梯度,唯一的计算开销来自运行小型扩散网络。 所提出的调节流程概述。来源:https://arxiv.org/pdf/2302.12764.pdf 通过引入多模态调节模块,图像生成的控制能力得到增强,可以对附加的模态进行调节,例如分割图或素描。该方法的主要贡献是引入多模态调节模块,一种适应预训练扩散模型进行有条件图像合成的方法,不改变原始模型的参数,并且在成本更低、内存使用更少的情况下实现高质量和多样化的结果,而不是从头开始训练或微调一个大模型。 查看论文和项目。这项研究的所有功劳归功于该项目上的研究人员。还请不要忘记加入我们的26k+ ML SubReddit、Discord频道和电子邮件通讯,我们在其中分享最新的人工智能研究新闻、酷炫的人工智能项目等等。 使用Tensorleap的可解释性平台揭示深度学习的奥秘 本文由MarkTechPost发布,标题为《一次扩散控制所有扩散:调节预训练扩散模型进行多模态图像合成》。

Leave a Comment

使用Amazon SageMaker JumpStart在VPC模式下,无需互联网连接,使用生成式AI基础模型

随着生成式人工智能的最新进展,关于如何将生成式人工智能应用于不同行业以解决特定业务问题的讨论越来越多生成式人工智能是一种可以创建新内容和想法的人工智能类型,包括对话、故事、图像、视频和音乐所有这些都由非常庞大的模型所支持[…]

Leave a Comment

“鲨鱼般惊艳:3D艺术家本周在“NVIDIA Studio”中投身于由人工智能驱动的海洋作品”

编辑注:本文是我们每周的NVIDIA Studio系列的一部分,该系列庆祝特色艺术家,提供创意技巧和窍门,并展示NVIDIA Studio技术如何改进创意工作流程。我们还将深入研究新的GeForce RTX 40系列GPU的功能、技术和资源,以及它们如何极大地加速内容创作。 本周在NVIDIA Studio中,我们将需要一艘更大的船,因为BBC工作室的高级艺术家和程序员Alessandro Mastronardi分享了令人心跳加速的鲨鱼视频和渲染。 这个以鲨鱼为主题的系列是艺术家最近在冰岛突发奇想的旅行中构思出来的,在那里他近距离看到了一只巨大的鲸鲨。Mastronardi说:“我渴望了解它的解剖结构、移动方式和进食方式。” 在深入研究了包括大白鲨、锤头鲨和鳐鱼类等鲨鱼在内的鲨鱼群体后,他准备进行创作。在下面了解更多关于他的创作之旅——没有鳍可以失去。 他令人难以置信的视觉作品——以及来自创作者Maggie Molloy和Hypertaf的与鲨鱼主题相关的艺术作品——都在最新的Studio Standout视频中展示,该视频重点介绍了令人难以置信的艺术家和他们的作品。 此外,NVIDIA Studio #StartToFinish社区挑战活动将持续到8月底。使用该标签提交一个包含开始和结束阶段的喜爱项目的截图,有机会在@NVIDIAStudio和@NVIDIAOmniverse社交渠道上展示。 令人惊叹的创造力 位于意大利佛罗伦萨的Mastronardi致力于将大自然的令人惊叹之美展现给大众。 他说:“研究大自然的各种形式,然后将这些信息和参考材料转化为艺术和用于多个制作和范围的内容,一直是我最大的骄傲和快乐。” 他首先在纸上勾画想法和概念。Mastronardi说:“从我的最初几年开始,我就一直这样做,因为它有助于我清晰地看到我想要实现的目标。” 大白鲨的参考材料有助于指导Mastronardi的艺术创作过程。 “简而言之,GeForce RTX GPU是任何3D专业人士都可以使用的最可靠、性能最高、最先进的图形卡。” —…

Leave a Comment

NVIDIA DGX Cloud现已可用,以加速生成式AI训练

NVIDIA DGX云——提供可以将几乎任何公司转变为AI公司的工具——现已广泛可用,包括在Oracle云基础设施上在线提供数千个NVIDIA GPU,以及位于美国和英国的NVIDIA基础设施。 DGX云是在NVIDIA的GTC大会上于三月份发布的AI超级计算服务,它使企业能够立即访问所需的基础设施和软件,以训练先进模型用于生成式AI和其他突破性应用。 “生成式AI已经使得AI的快速采用成为各行业领先公司的业务必需品,推动许多企业寻求更加快速的计算基础设施,”全球管理咨询公司麦肯锡的首席分析师Pat Moorhead表示。 根据麦肯锡最近的估计,生成式AI每年可以为全球经济增加超过4万亿美元,将世界各行业的专有业务知识转化为下一代AI应用。 产业先驱以生成式AI改变业务 几乎每个行业都可以从生成式AI获益,早期的先驱已经在其市场上引领了变革。 医疗保健公司使用DGX云来训练蛋白质模型,以加快药物发现和临床报告的速度,并实现自然语言处理。 金融服务提供商使用DGX云来预测趋势、优化投资组合、构建推荐系统和开发智能生成式AI聊天机器人。 保险公司正在构建模型以自动化理赔处理。 软件公司正在使用它来开发以AI为动力的功能和应用程序。 其他人正在使用DGX云来构建AI工厂和有价值资产的数字孪生。 即时提供的专用AI超级计算 DGX云实例提供了企业按月租用的专用基础设施,确保客户能够快速轻松地开发大规模、多节点的训练工作负载,而无需等待常常供不应求的加速计算资源。 “NVIDIA DGX云的可用性提供了一个新的AI超级计算资源池,几乎可以即时访问,”Moorhead表示。 这种简单的AI超级计算方法消除了获取、部署和管理本地基础设施的复杂性。DGX云提供了NVIDIA DGX AI超级计算与NVIDIA AI企业软件的配套,使得企业可以使用Web浏览器访问自己的AI超级计算机。 在浏览器中的NVIDIA AI超级计算和软件 DGX云的每个实例都配备了8个NVIDIA…

Leave a Comment

人力资源在工资系统中的应用:4个例子

谈到企业管理,将人力资源和工资核算功能紧密结合可以带来显著的效率考虑到这一点,让我们探索一些创新的系统,这些系统极好地展示了这种集成了解像Papaya Global、ADP Workforce Now、Zenefits等平台如何彻底改变企业处理人力资源和工资任务的方式…人力资源在工资核算系统中的应用:4个案例阅读更多»

Leave a Comment

使用游戏化软件提升员工参与度:优点与缺点

员工参与度是真正重视高生产力和整体绩效的组织的核心关注领域之一使用游戏化软件可以在员工参与度方面产生重大改变这是一种激励员工和促进协作的好方法,但在实施此类软件之前,必须考虑一些潜在的缺点… 使用游戏化软件提高员工参与度:优势和劣势

Leave a Comment

LLMs的内部工作原理:深入探讨语言模型架构

介绍 基于大规模预训练的语言模型(LLMs)已经彻底改变了自然语言处理领域。使得机器能够以惊人的准确度理解和生成类似人类的文本。要真正欣赏LLMs的能力,有必要深入了解它们的内部运作方式并理解其架构的复杂性。通过揭示LLMs语言模型架构背后的奥秘,我们可以深入了解这些模型如何处理和生成语言,为语言理解、文本生成和信息提取的进步铺平道路。 在这篇博客中,我们将深入探讨LLMs的内部运作原理,揭示让它们能够以永久改变人机交互可能性的方式理解和生成语言的奥秘。 学习目标 了解LLMs的基本组成部分,包括transformers和自注意机制。 探索LLMs的分层架构,包括编码器和解码器。 深入了解LLMs训练的预训练和微调阶段。 了解LLMs架构的最新进展,例如GPT-3、T5和BERT。 全面了解注意机制及其在LLMs中的重要性。 本文是Data Science Blogathon的一部分。 了解更多:什么是大型语言模型(LLMs)? LLMs的基础:Transformers和自注意机制 踏入LLMs的基础,transformers和自注意机制构成了这些模型能够以出色的能力理解和生成语言的基石。 Transformers Transformers最初在Vaswani等人于2017年发表的《Attention is All You Need》一文中提出,彻底改变了自然语言处理领域。这些强大的架构消除了对循环神经网络(RNNs)的需求,而是依赖于自注意机制来捕获输入序列中单词之间的关系。 Transformers使得LLMs能够并行处理文本,实现更高效和更有效的语言理解。通过同时关注输入序列中的所有单词,transformers捕获长距离的依赖关系和上下文关系,这对于传统模型来说可能具有挑战性。这种并行处理使得LLMs能够从文本中提取复杂的模式和依赖关系,从而更好地理解语言的语义。 自注意力 更深入地研究,我们会遇到自注意力的概念,它是基于transformer的架构的核心。自注意力使得LLMs在处理每个单词时可以关注输入序列的不同部分。 在自注意力过程中,LLMs根据与当前处理的单词相关性来赋予不同单词注意力权重。这种动态的注意机制使得LLMs能够关注关键的上下文信息,并忽略不相关或噪声输入部分。…

Leave a Comment

政府介入芯片设计:对印度半导体雄心的利弊?

印度正在准备在即将到来的“Semicon India 2023”展示其半导体实力和芯片设计创新。这个由印度总理纳伦德拉·莫迪开幕的活动将推出多项倡议和半导体投资机会。这是印度政府积极努力将该国建设成为半导体制造中心的一部分。到目前为止,政府已经出台了多项政策来促进国内产业增长。其中,设计相关激励(DLI)计划旨在培养印度在半导体设计方面的专业能力。然而,最近提议收购国内半导体芯片设计公司的股权引发了专家之间的辩论。本文探讨了政府对芯片设计的干预可能带来的潜在影响,以及对印度半导体雄心的影响。 另请阅读:SiMa.ai将把全球最强大的AI芯片引入印度 政府的风险投资方式 政府计划收购半导体芯片设计公司的股权,旨在培育国内强大的无晶圆制造生态系统,并防止主要股权被外国实体收购。虽然这一举措可能会带来短期利益,但业内专家对其长期有效性提出了担忧。批评者认为,政府作为芯片设计公司的风投公司可能无法保证世界一流的知识产权创造。公司通常更喜欢外国买家,以获得更高的估值和全球客户和投资者网络的接触,这限制了政府风投的成功。 另请阅读:印度的人工智能飞跃:国产ChatGPT将赋予数百万人力量 资金可及性:一个重大障碍 国内半导体芯片设计公司面临的主要挑战之一是缺乏资金来源。与软件行业的快速周转时间不同,半导体公司的投资回报周期较长。这使得它们难以吸引潜在的私人投资者和风险投资家。如果政府在这些公司拥有重大股权,可能会进一步阻碍私人投资,从而阻碍其发展。此外,政府所有权可能导致对公司的运营和决策过程的过度干预,对创新和全球竞争力产生负面影响。 另请阅读:一家台湾公司如何成为现代人工智能的支柱? 政府所有权的意外后果 政府对半导体芯片设计公司的所有权也可能使其面临政治压力,可能影响商业决策和整体竞争力。政府在印度公共部门企业(PSU)表现不佳的记录引发了对其为国内半导体公司带来价值能力的质疑。此外,过度的政府干预可能妨碍公司保持敏捷性并适应不断变化的市场需求。 对印度半导体雄心的建议 尽管印度政府支持国内芯片设计公司的意图值得赞赏,但专家建议采取替代策略来促进增长和竞争力。通过促进更多的外商直接投资(FDI)和建立长期的外国-国内私营部门联系,可以将印度的半导体设计市场与全球行业整合起来。通过鼓励私人投资,政府可以允许公司独立发展,避免来自过度政府所有权的潜在障碍。 另请阅读:Tech Mahindra首席执行官接受Sam Altman的人工智能挑战 印度的半导体:一个充满希望的未来 尽管面临挑战,印度的半导体雄心继续展现出希望。DLI计划批准了五家参与者,并且Micron Technology与古吉拉特邦政府签署了一项谅解备忘录,以建立一个ATMP设施,这表明取得了进展。此外,富士康与TSMC和TMH集团等知名企业合作的追求反映了在印度建立芯片的决心。 另请阅读:Sam Altman与印度总理纳伦德拉·莫迪的重要会议:规划印度的人工智能未来 我们的观点 随着“Semicon India…

Leave a Comment