Press "Enter" to skip to content

“猜猜我今天看到了什么?这个AI模型可以解码你的脑信号,重建你看到的东西”

“猜猜我今天看到了什么?这个AI模型可以解码你的脑信号,重建你看到的东西” 四海 第1张“猜猜我今天看到了什么?这个AI模型可以解码你的脑信号,重建你看到的东西” 四海 第2张

大脑 “猜猜我今天看到了什么?这个AI模型可以解码你的脑信号,重建你看到的东西” 四海 第3张,人体最迷人的器官。理解它的工作原理是解开生命秘密的关键。我们是如何思考、感知、嗅觉、感觉、行动的?所有这些问题的答案都在于理解大脑的工作原理。

理解大脑对我们所看到的内容的反应是一个热门研究课题,因为这种知识可能导致先进的计算认知系统的发展。由于我们有功能磁共振成像(fMRI)和脑电图(EEG)等先进工具,科学家现在可以记录由视觉刺激引发的大脑活动。这导致了对解码和重建引发人脑这些反应的实际内容的兴趣日益增长。

研究人类视觉感知的一种常见方法是重建被试者在实验中看到的图像或视频。这是通过使用计算方法,尤其是深度神经网络,并且主要基于fMRI数据来完成的。然而,收集fMRI数据在实际使用中既昂贵又不方便。我的意思是,如果你曾经在MRI设备中待过,你可能知道待在那里是多么的不舒服。没有人愿意自愿参加这样的实验。

这就是脑电图的作用。脑电图是一种更高效的记录和分析大脑信号的方法,被试者在观看各种刺激时使用,但它也面临着自己的挑战。脑电图信号是时间序列数据,与静态图像非常不同。这使得将刺激与相应的脑信号片段匹配变得困难。此外,电极放置错误和身体运动等问题会给数据引入显著的噪声。简单地将脑电图输入映射到像素以进行图像重建会产生低质量的结果。

另一方面,扩散模型已经成为生成建模中的最先进方法。它们已成功应用于各种任务,包括图像合成和视频生成。通过在强大的预训练自动编码器的潜在空间中操作,研究人员克服了像素空间评估的局限性,实现了更快的推理和降低的训练成本。

让我们来认识一下NeuroImageGen,它利用扩散模型的强大功能来解决这个问题。

NeuroImageGen是使用脑电图信号进行神经图像生成的流程。它通过加入多级语义提取模块来解决与基于脑电图的图像重建相关的挑战。该模块从脑电图信号中解码出不同级别的语义信息,从样本级语义到像素级细节(如显著性图)等各种级别。然后,这些多级输出被输入到预训练的扩散模型中,有效地控制不同语义级别上的生成过程。

脑电图信号是复杂的时间序列数据,容易受到噪声的影响,使其难以处理。 NeuroImageGen通过提取多级语义(包括像素级和样本级信息)来克服这一问题。像素级语义涉及通过显著性图捕捉视觉刺激的细粒度颜色、位置和形状细节。另一方面,样本级语义提供了更粗粒度的理解,如识别图像类别或文本标题。这种多级方法使得NeuroImageGen能够有效处理嘈杂的脑电图数据,实现高质量的视觉刺激重建。

“猜猜我今天看到了什么?这个AI模型可以解码你的脑信号,重建你看到的东西” 四海 第4张
NeuroImageGen概览。来源:https://arxiv.org/abs/2308.02510

NeuroImageGen将这些多级语义集成到隐式扩散模型中进行图像重建。从脑电图特征生成的显著性图作为初始图像。从图像标题的CLIP模型嵌入中派生的样本级语义指导扩散模型中的去噪过程。这种集成允许在重建过程中灵活控制不同级别的语义信息。结果是重建的视觉刺激,它有效地结合了细粒度和粗粒度信息,产生高质量的图像。

这种方法的结果是令人鼓舞的,在脑电图数据上胜过了传统的图像重建方法。NEUROIMAGEN显著提高了重建图像的结构相似性和语义准确性,提高了我们对视觉刺激对人脑的影响的理解。

Leave a Reply

Your email address will not be published. Required fields are marked *