Press "Enter" to skip to content

元人工智能研究人员引入了一种机器学习模型,从非侵入性脑电记录中探索解码语音知觉

通过脑部活动解读语音是医疗保健和神经科学领域的一个长期目标,最近在有创设备上取得了进展。在颅内记录上训练的深度学习算法可以解码基本的语言要素。然而,将这一方法扩展至自然语音和非侵入性脑部记录存在挑战。Meta的研究人员介绍了一种利用对比学习来解码非侵入性记录中感知到的语音表示的机器学习模型。他们的方法结合了四个数据集,并取得了有希望的结果,为从脑部活动解码语言提供了一个潜在途径,无需侵入性程序,并对医疗保健和神经科学产生了影响。

研究人员探索利用非侵入性脑部活动记录来解码语音,借鉴了有创设备在解码语言要素方面的最新进展。他们的方法引入了一种对比学习模型,训练出能够解码自我监督语音表示的模型。与有创研究的比较突显出他们更丰富的词汇量,并讨论了在语音生成方面的潜在应用。获取健康成年志愿者数据集并进行被动听取已获得伦理批准。

在医疗保健和神经科学领域,从非侵入性脑部记录中解码语音是一个重大挑战。虽然有创设备已经取得了进展,但将其扩展到自然语音仍然困难。他们的方法介绍了一种利用对比学习训练的模型,用于解码非侵入性数据中的自我监督语音表示。他们的进步在不需要侵入性程序的情况下,提供了从脑部活动中解码语言的希望。

他们的方法引入了一个神经解码任务,用于解码由MEG或EEG记录的175名志愿者在听故事时的感知语音。它采用了一种常见的卷积架构,同时对多个参与者进行训练。与基准的比较分析突显出对比目标和预训练语音表示的重要性。此外,解码器的预测主要依赖于词汇和上下文语义表示。

解码准确率在参与者和数据集之间有所不同。以单词级别的预测为例,对正确单词的识别和与负面候选项的区分显示了准确性。与基准的比较突显了对比目标、预训练语音表示和共享卷积架构在提高解码准确性方面的重要性。解码器的预测主要依赖于词汇和上下文语义表示。

研究人员引入了一种基于对比学习的模型,用于解码非侵入性脑部记录中的感知语音。他们的模型展示了有希望的结果,实现了在语音段落识别方面平均准确率高达41%,在最佳表现的参与者中达到了80%的准确率。与基准的比较突显了对比目标、预训练语音表示和共享卷积架构在提高解码准确性方面的重要性。解码器的预测主要依赖于词汇和上下文语义。他们的工作在医疗保健和神经科学应用中具有潜力,可以进行非侵入性语言解码。

未来的研究应阐明导致参与者和数据集解码准确性差异的因素。探究模型在解决更复杂的语言属性和实时语音感知场景方面的性能至关重要。评估模型在不同脑部记录或成像技术中的泛化能力是必要的。探索其捕捉语调和音素特征的能力将为语音解码提供全面的见解。

Leave a Reply

Your email address will not be published. Required fields are marked *