见面Brain2Music：一种使用功能磁共振成像（fMRI）捕获的脑活动重建音乐的人工智能方法

见面Brain2Music：一种使用功能磁共振成像（fMRI）捕获的脑活动重建音乐的人工智能方法四海第1张

谁不喜欢音乐呢？你是否曾经记得一首歌的节奏，但却想不起歌词，也无法找出歌曲的名字？谷歌和大阪大学的研究人员一起找到了一种方法，使用功能性磁共振成像（fMRI）从脑活动中重构音乐。根据音乐的流派、乐器和情绪，生成音乐。

谷歌和大阪大学的研究人员使用深度神经网络生成音乐，通过预测高级、语义结构化的音乐来生成音乐特征，如fMRI扫描。根据人类听觉皮层的活动，可以预测音乐的不同组成部分。研究人员使用了JukeBox进行实验，该系统生成具有高时间连贯性的音乐，其中包含可预测的特征。使用低比特率的压缩神经音频编解码器生成高质量音频。

从fMRI生成音乐需要中间阶段，其中包括通过选择音乐嵌入来表示音乐。他们使用的架构包括音乐嵌入，用于随后的音乐生成的瓶颈。如果预测的音乐嵌入接近受试者听到的原始刺激的音乐嵌入，则使用MusicLM（音乐生成模型）生成类似原始刺激的音乐。

音乐生成模型MusicLM由名为MuLan和w2v-BERT-avg的音频派生嵌入组成。在侧前额皮质中，MuLan往往比w2v-BERT-avg具有更高的预测性能，因为它捕捉到了人脑中的高级音乐信息处理。与音频派生嵌入相比，音乐的抽象信息在听觉皮层中以不同的方式表示。

MuLan嵌入通过生成模型转换为音乐。模型中恢复了嵌入中不包含的信息。在检索技术中，重建的音乐也是音乐性的，因为它直接从音乐数据集中提取。这确保了更高水平的重建质量。研究人员使用fMRI响应数据的线性回归。该方法也存在局限性，包括在使用fMRI数据的线性回归中的确切信息量的不确定性。

研究人员表示，他们未来的工作包括从个体的想象中重构音乐。当用户想象一段音乐片段时，解码分析会考察想象能否被准确重构。这将符合实际的读心术。不同音乐专业背景的多样化受试者存在，需要通过比较进行多个重构属性。比较受试者之间的重构质量，其中包括专业音乐家，可以为他们的观点和理解差异提供有用的见解。

他们的研究工作只是将您纯粹的、富有想象力的思想变为现实的第一步。这也将导致仅凭空想象生成全息图像的可能性。在这一领域的进步还将从生物学角度提供定量解释。