Press "Enter" to skip to content

见面Brain2Music:一种使用功能磁共振成像(fMRI)捕获的脑活动重建音乐的人工智能方法

见面Brain2Music:一种使用功能磁共振成像(fMRI)捕获的脑活动重建音乐的人工智能方法 四海 第1张见面Brain2Music:一种使用功能磁共振成像(fMRI)捕获的脑活动重建音乐的人工智能方法 四海 第2张

谁不喜欢音乐呢?你是否曾经记得一首歌的节奏,但却想不起歌词,也无法找出歌曲的名字?谷歌和大阪大学的研究人员一起找到了一种方法,使用功能性磁共振成像(fMRI)从脑活动中重构音乐。根据音乐的流派、乐器和情绪,生成音乐。

谷歌和大阪大学的研究人员使用深度神经网络生成音乐,通过预测高级、语义结构化的音乐来生成音乐特征,如fMRI扫描。根据人类听觉皮层的活动,可以预测音乐的不同组成部分。研究人员使用了JukeBox进行实验,该系统生成具有高时间连贯性的音乐,其中包含可预测的特征。使用低比特率的压缩神经音频编解码器生成高质量音频。

从fMRI生成音乐需要中间阶段,其中包括通过选择音乐嵌入来表示音乐。他们使用的架构包括音乐嵌入,用于随后的音乐生成的瓶颈。如果预测的音乐嵌入接近受试者听到的原始刺激的音乐嵌入,则使用MusicLM(音乐生成模型)生成类似原始刺激的音乐。

音乐生成模型MusicLM由名为MuLan和w2v-BERT-avg的音频派生嵌入组成。在侧前额皮质中,MuLan往往比w2v-BERT-avg具有更高的预测性能,因为它捕捉到了人脑中的高级音乐信息处理。与音频派生嵌入相比,音乐的抽象信息在听觉皮层中以不同的方式表示。

MuLan嵌入通过生成模型转换为音乐。模型中恢复了嵌入中不包含的信息。在检索技术中,重建的音乐也是音乐性的,因为它直接从音乐数据集中提取。这确保了更高水平的重建质量。研究人员使用fMRI响应数据的线性回归。该方法也存在局限性,包括在使用fMRI数据的线性回归中的确切信息量的不确定性。

研究人员表示,他们未来的工作包括从个体的想象中重构音乐。当用户想象一段音乐片段时,解码分析会考察想象能否被准确重构。这将符合实际的读心术。不同音乐专业背景的多样化受试者存在,需要通过比较进行多个重构属性。比较受试者之间的重构质量,其中包括专业音乐家,可以为他们的观点和理解差异提供有用的见解。

他们的研究工作只是将您纯粹的、富有想象力的思想变为现实的第一步。这也将导致仅凭空想象生成全息图像的可能性。在这一领域的进步还将从生物学角度提供定量解释。

Leave a Reply

Your email address will not be published. Required fields are marked *