Press "Enter" to skip to content

来自新加坡国立大学的研究人员提出了Mind-Video:一种利用脑部fMRI数据重现视频图像的新型AI工具

来自新加坡国立大学的研究人员提出了Mind-Video:一种利用脑部fMRI数据重现视频图像的新型AI工具 四海 第1张来自新加坡国立大学的研究人员提出了Mind-Video:一种利用脑部fMRI数据重现视频图像的新型AI工具 四海 第2张

理解人类认知使得从脑部过程中重建人类视觉变得有趣,尤其是在使用功能性磁共振成像(fMRI)等非侵入性技术时。在从非侵入性脑部记录中恢复静止图像方面已经取得了很大进展,但对于连续的视觉体验(如电影)则没有太多进展。

虽然非侵入性技术只能收集有限的数据,因为它们的稳健性较差,容易受到噪声等外界影响。此外,收集神经影像数据是一项耗时且昂贵的过程。

尽管面临这些挑战,但已经取得了一些进展,尤其是通过稀疏fMRI-注释对学习有用的fMRI特征。与静态图像不同,人类的视觉体验是一种不间断、不断变化的景象、动作和物体。因为fMRI测量血氧水平依赖(BOLD)信号,并每隔几秒钟拍摄一次脑部活动的图片,所以恢复动态视觉体验可能很困难。每个fMRI读数可以被视为扫描期间脑部活动的“平均值”。相反,标准视频的帧速率为每秒30帧(FPS)。在获取一个fMRI帧的时间内,可以显示60帧的视频帧作为视觉刺激,这可能使受试者接触到各种各样的物体、动作和场景。因此,通过fMRI解码以比fMRI的时间分辨率更高的FPS检索电影是具有挑战性的。

来自新加坡国立大学的研究人员提出了Mind-Video:一种利用脑部fMRI数据重现视频图像的新型AI工具 四海 第3张

新加坡国立大学和中国香港中文大学的研究人员引入了MinD-Video,这是一个模块化的脑部解码流水线,包括独立训练的fMRI编码器和增强的稳定扩散模型,然后进行微调。所提出的模型在不同阶段从脑部获取数据,扩展其对语义领域的知识。

首先,团队使用大规模无监督学习和脑部建模来训练通用的视觉fMRI特征。接下来,他们使用注释数据集的多模态性提取语义相关特征,并在对比学习空间的fMRI编码器中进行对比学习训练。然后,使用专门针对fMRI输入的增强稳定扩散模型与学习的特征进行共同训练,以进一步完善它们。

研究人员为生成场景动态视频的稳定扩散模型添加了近帧焦点。他们还开发了一个对抗性引导系统,以针对特定目的调整fMRI扫描。检索到了高质量的视频,并且它们的语义,如动作和场景动态,完全准确。

团队使用视频和帧级别的语义和像素指标评估了结果。在语义指标方面的准确率达到了85%,在SSIM方面为0.19,这一方法比先前最先进的方法提高了49%。研究结果还表明,根据注意力研究的结果,该模型似乎具有生物学上的合理性和可解释性,它映射到视觉皮层和更高级的认知网络。

由于个体差异,该技术在不同受试者之间的普适性尚在研究中。此方法在重建中仅使用了不到10%的皮层体素,而完全利用大脑数据的潜力尚未发挥。研究人员认为,随着构建更复杂的模型,该领域可能在神经科学和脑机接口等领域得到应用。

Leave a Reply

Your email address will not be published. Required fields are marked *