Press "Enter" to skip to content

无监督深度学习在单个下颞面部区域神经元中识别语义分离

我们的大脑具有处理视觉信息的惊人能力。我们可以一瞥复杂的场景,仅用几毫秒就能将其解析为对象及其属性,如颜色或大小,并利用这些信息用简单的语言描述场景。这种看似毫不费力的能力在视觉皮层中进行了复杂的计算,涉及将从视网膜传输的数百万个神经冲动转化为更有意义的形式,可以映射到简单的语言描述中。为了完全理解这个过程在大脑中是如何工作的,我们需要弄清楚语义上有意义的信息是如何在视觉处理层次结构末端的神经元发放中表示的,并且这种表示如何通过大部分未经教导的经验进行学习。

图1. 解缠指的是神经网络在没有被显式教导这些属性的情况下发现图像的语义有意义的属性的能力。这些模型通过将图像映射到一个较低维度的表示中,通过推断神经网络进行重建图像。解缠表示中的每个单独潜在单元都学习编码一个可解释的属性,如对象的颜色或大小。逐个操作这些潜在单元会导致生成的图像重建中的可解释变化。动画由Chris Burgess制作。

为了在面孔感知的背景下回答这些问题,我们与加州理工学院(Doris Tsao)和中国科学院(Le Chang)的合作者合作。我们选择面孔,因为它们在神经科学界已经有了深入研究,并且常常被视为“物体识别的微观世界”。特别是,我们想要比较我们的合作者记录的视觉处理层次结构末端的面部区域中单个皮层神经元的响应与最近出现的所谓“解缠”深度神经网络的响应,这些网络与通常的“黑盒”系统不同,明确的目标是对人类可解释。一个“解缠”神经网络通过将复杂图像映射到少量内部神经元(称为潜在单元)中进行学习,每个潜在单元代表场景的一个语义有意义的属性,如对象的颜色或大小(见图1)。与通过不真实的外部监督进行训练以识别视觉对象的“黑盒”深度分类器不同,这些解缠模型在没有外部教学信号的情况下进行训练,使用自我监督的目标将输入图像(图1中的生成)从其学习的潜在表示(通过图1中的推断获得)重新构建。

解缠在机器学习界几乎十年前就被假设是构建更节省数据、可转移、公平和富有想象力的人工智能系统的重要组成部分。然而,多年来,构建一个在实践中能够解缠的模型一直是该领域的难题。第一个能够成功而稳健地做到这一点的模型,称为β-VAE,是通过从神经科学中汲取灵感开发的:β-VAE通过预测自己的输入进行学习;它需要类似于婴儿所遇到的那样的视觉经验才能成功学习;它学到的潜在表示反映了已知的视觉大脑属性。

在我们的新论文中,我们测量了在面部图像数据集上训练的β-VAE发现的解缠单元与灵长类动物在观察相同面孔时记录的单个神经元的响应之间的相似程度。神经数据是由我们的合作者在加州理工学院动物保护与使用委员会的严格监督下收集的。当我们进行比较时,我们发现了令人惊讶的事情-似乎β-VAE发现的少数解缠单元的行为就像它们等效于同样大小的一组真实神经元。当我们仔细观察时,我们发现真实神经元与虚拟神经元之间存在强有力的一对一映射(见图2)。这种映射比其他模型(包括先前被认为是视觉处理的最先进计算模型的深度分类器或被认为是神经科学界“黄金标准”的手工模型)更强大。不仅如此,β-VAE单元还编码了像年龄、性别、眼睛大小或微笑的存在等语义有意义的信息,使我们能够了解大脑中的单个神经元用于表示面孔的属性。

<img alt="图2. 青霉素面部区的单个神经元位于视觉处理层次的末端,代表可解释的面部属性,如眼睛形状或微笑的存在,并且与通过解缠表示学习发现的β-VAE中的单个人工神经元相当。图片来源:Marta Garnelo。

如果β-VAE确实能够自动发现与真实神经元在响应面部图像方面相匹配的人工潜在单元,那么将真实神经元的活动转化为它们相匹配的人工神经元,并使用训练过的β-VAE的生成器(见图1)可视化真实神经元所代表的面部是可能的。为了测试这一点,我们向灵长类动物呈现了该模型从未经历过的新面部图像,并检查我们是否可以使用β-VAE生成器(见图3)来渲染它们。我们发现这是可能的。仅使用12个神经元的活动,我们就能够生成比其他深度生成模型产生的原始图像更准确的重建图像,并且在视觉质量上更好。这是尽管已知其他模型在一般情况下都比β-VAE更好地生成图像。

<img alt="图3. 在灵长类动物视觉皮层中,受试者观看新颖面部时,经过训练的β-VAE生成器准确地通过12个一对一匹配的神经元的活动重建了面部图像。新颖的面部图像经Ma等人和Phillips等人许可复制。

我们在新论文中总结的发现表明,即使在其处理层次的末端,视觉大脑也可以在单个神经元水平上进行理解。这与普遍的观点相反,即语义上有意义的信息在这些神经元之间是复合的,每个神经元在个体上仍然基本上是不可解释的,类似于在深度分类器的完整层之间编码信息的方式。不仅如此,我们的发现表明,大脑可能通过优化解缠目标来学习支持我们轻松进行视觉感知的能力。虽然β-VAE最初是受高级神经科学原理启发而开发的,但解缠表示的实用性迄今主要在机器学习社区中得到证明。与神经科学和机器学习之间互利互惠的丰富历史一致,我们希望机器学习的最新见解现在可以反馈给神经科学社区,以研究解缠表示在支持生物系统中的智能,特别是作为抽象推理的基础或可推广和高效的任务学习的价值。

Leave a Reply

Your email address will not be published. Required fields are marked *