为了与他人沟通,人类只能使用有限的词汇来解释外界的所见。这种适应性的认知能力表明,通过语言传达的语义信息与各种感觉输入紧密地交织在一起,特别是对于视觉来说。根据神经科学的调查,非模态语义表示在视觉和语言体验之间是共享的。例如,“猫”这个词会生成可与猫的脑内图像相比拟的概念信息。然而,概念类别之间的语义关系以及在V&L模态之间的平滑过渡通常只是在计算模型中被量化或实现。
最近关于神经解码器的研究表明,通过功能磁共振成像捕获到的视觉皮层的表示可以重建视觉内容。然而,重建图片的模糊和语义的无意义或不匹配仍然存在。另一方面,神经科学界提供了强有力的证据支持大脑的视觉皮层可以获取既视觉又语言的语义理念。研究结果促使我们开发新的“读心术”设备,以语音翻译您所感知的内容。这样的努力在阐明跨模态的语义整合机制方面具有相当的科学价值,同时也为增强型或恢复性脑-计算机接口提供了有用的信息。
浙江大学的作者们介绍了MindGPT,一种非侵入性神经语言解码器,将由静态视觉刺激产生的血氧水平依赖模式转换为良好的词序列,如图1左所示。据他们所知,唐等人是第一次尝试创建一个非侵入性神经解码器,用于感知性讲稿的重建,甚至可以恢复静默影片的含义。然而,由于功能磁共振成像的时间分辨率较低,需要收集大量的功能磁共振成像数据才能预测候选词与诱发脑响应之间的细粒度语义意义。
图1:左:MindGPT非侵入性语言解码器的整体流程。右:我们的MindGPT重建结果,SMALLCAP图片标题模型和VQ-fMRI以及MinD-Vis视觉解码方法的结果。
相反,这项研究集中于静态视觉感觉经验(如单一图像)是否以及在多大程度上为非模态语言映射提供语义标记。他们构建MindGPT以满足两个重要需求:(i)它必须能够从脑活动中提取视觉语义表示;(ii)它必须包括一种将学习到的视觉语义表示转化为正常构造的词序列的方法。他们首先决定使用大型语言模型GPT-2作为他们的文本生成器。该模型已经在一个名为WebText的数百万个网站数据集上进行了预训练,并且它可以让我们限制句子模式以与良好的自然英语相似。
然后,为了从端到端地缩小脑-视觉语言表示之间的含义差距,他们采用了一个简单且有效的受CLIP引导的fMRI编码器和交叉注意层。这种神经解码形式具有非常少的可学习参数,使其既轻量又高效。他们在这项工作中展示了MindGPT可以作为连接大脑的VC和机器的可靠的V&L语义转换的链路。他们的技术已经学习到了可普遍适用的脑语义表示以及对B&V&L模态的深入理解,因为其生成的语言准确捕捉了观察输入的视觉语义。
此外,他们发现,即使只有很少的fMRI图片训练数据,经过良好训练的MindGPT似乎也能够记录刺激图像的视觉线索,这使我们更容易研究视觉特征对语言语义的贡献。他们还借助可视化工具观察到,MindGPT所教授的潜在脑表示具有低级视觉要素和高级语义理念的有利的局部敏感特征,与神经科学领域的某些发现一致。总体而言,他们的MindGPT揭示了与先前工作相比,从大脑的VC中推断V&L表示之间的语义关系是可能的,而无需考虑fMRI的时间分辨率。