来自新加坡国立大学的研究人员提出了Mind-Video：一种利用脑部fMRI数据重现视频图像的新型AI工具

来自新加坡国立大学的研究人员提出了Mind-Video：一种利用脑部fMRI数据重现视频图像的新型AI工具四海第1张

理解人类认知使得从脑部过程中重建人类视觉变得有趣，尤其是在使用功能性磁共振成像（fMRI）等非侵入性技术时。在从非侵入性脑部记录中恢复静止图像方面已经取得了很大进展，但对于连续的视觉体验（如电影）则没有太多进展。

虽然非侵入性技术只能收集有限的数据，因为它们的稳健性较差，容易受到噪声等外界影响。此外，收集神经影像数据是一项耗时且昂贵的过程。

尽管面临这些挑战，但已经取得了一些进展，尤其是通过稀疏fMRI-注释对学习有用的fMRI特征。与静态图像不同，人类的视觉体验是一种不间断、不断变化的景象、动作和物体。因为fMRI测量血氧水平依赖（BOLD）信号，并每隔几秒钟拍摄一次脑部活动的图片，所以恢复动态视觉体验可能很困难。每个fMRI读数可以被视为扫描期间脑部活动的“平均值”。相反，标准视频的帧速率为每秒30帧（FPS）。在获取一个fMRI帧的时间内，可以显示60帧的视频帧作为视觉刺激，这可能使受试者接触到各种各样的物体、动作和场景。因此，通过fMRI解码以比fMRI的时间分辨率更高的FPS检索电影是具有挑战性的。

新加坡国立大学和中国香港中文大学的研究人员引入了MinD-Video，这是一个模块化的脑部解码流水线，包括独立训练的fMRI编码器和增强的稳定扩散模型，然后进行微调。所提出的模型在不同阶段从脑部获取数据，扩展其对语义领域的知识。

首先，团队使用大规模无监督学习和脑部建模来训练通用的视觉fMRI特征。接下来，他们使用注释数据集的多模态性提取语义相关特征，并在对比学习空间的fMRI编码器中进行对比学习训练。然后，使用专门针对fMRI输入的增强稳定扩散模型与学习的特征进行共同训练，以进一步完善它们。

研究人员为生成场景动态视频的稳定扩散模型添加了近帧焦点。他们还开发了一个对抗性引导系统，以针对特定目的调整fMRI扫描。检索到了高质量的视频，并且它们的语义，如动作和场景动态，完全准确。

团队使用视频和帧级别的语义和像素指标评估了结果。在语义指标方面的准确率达到了85%，在SSIM方面为0.19，这一方法比先前最先进的方法提高了49%。研究结果还表明，根据注意力研究的结果，该模型似乎具有生物学上的合理性和可解释性，它映射到视觉皮层和更高级的认知网络。

由于个体差异，该技术在不同受试者之间的普适性尚在研究中。此方法在重建中仅使用了不到10%的皮层体素，而完全利用大脑数据的潜力尚未发挥。研究人员认为，随着构建更复杂的模型，该领域可能在神经科学和脑机接口等领域得到应用。