研究表明,将听觉数据转化为语言表示涉及到声音感知。当有人听到语音时,包括主要和非主要听觉皮层区域、听觉神经以及皮层下结构的听觉通路会被激活。由于环境条件和语言知觉单元的听觉信号会发生变化,自然语音知觉是一项艰巨的任务。尽管经典的认知模型能够解释许多语音知觉的心理特征,但在解释大脑编码和自然语音识别方面,这些模型还不够完善。深度学习模型在自动语音识别方面正接近人类的表现。
为了提高人工智能模型的可解释性,并提供新的数据驱动的感知计算模型,加州大学旧金山分校的研究人员旨在将深度学习模型的计算和表示与人类听觉系统的神经反应相关联。它旨在识别人类听觉回路和最先进的语音神经网络模型之间的共同表示和计算。分析重点是与上行听觉通路中真实语音的神经反应相关联的深度神经网络(DNN)语音嵌入,并使用神经编码框架。
详细比较了听觉回路和深度神经网络(DNN)模型的各种计算架构(卷积、循环和自注意)和训练过程(有监督和无监督目标)。此外,检查DNN的计算能提供有关神经编码预测的基本过程的信息。与之前针对单一语言(主要是英语)的建模尝试不同,他们在研究中使用了跨语言范式来揭示语音知觉的语言特定和语言不变特征。
令人着迷的是,研究人员展示了最新的DNN如何紧密模拟人类听觉系统中的关键信息处理要素。当预测整个听觉通路中对真实语音的神经反应时,DNN的特征表示比基于理论驱动的声学-语音学特征集表现得更好。此外,他们还检查了深度神经网络(DNN)中基本的上下文计算。他们发现,完全无监督的自然语音训练是这些网络获取与语言相关的关键时间结构(如音素和音节上下文)的方式。这种获取特定于语言的语言信息的能力预测了非主要听觉皮层中DNN-神经编码的相关性。线性STRF模型无法揭示在跨语言知觉期间STG中的特定于语言的编码,而基于深度学习的神经编码模型可以。
总之
使用比较方法,研究人员展示了语音学习的深度神经网络(DNN)与人类听觉系统之间的重要的表征和计算相似性。从神经科学的角度来看,基于经典特征的编码模型在从统计结构中提取中间语音特征方面被数据驱动的计算模型所超越。通过与神经反应和选择性进行对比,他们为理解AI方面DNN的“黑箱”表示提供了一种方法。他们展示了如何使现代DNN可能选择类似于人类听觉系统信息处理方式的表示。根据研究人员的说法,未来的研究可以使用更广范围的AI模型和更大更多样的人群来调查和验证这些结果。
本文发表在《解读听觉处理:深度学习模型如何在大脑中模拟人类语音识别》一文中,首发于MarkTechPost。