语音解码 – 四海吧

.fav_bar { 浮动：左边; 边框：1像素实心#a7b1b5; 上边距：10像素; 下边距：20像素; } .fav_bar span.fav_bar-label { 文字对齐：居中; 填充：8像素0像素0像素0像素; 浮动：左边; 左边距：-1像素; 右边框：1像素点状#a7b1b5; 左边框：1像素实心#a7b1b5; 显示：块; 宽度：69像素; 高度：24像素; 颜色：#6e7476; 字体加粗；字号：12像素; 文本转换：大写; 字体：Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { 浮动：左边; 右边框：1像素点状#a7b1b5; 显示：块; 宽度：36像素; 高度：32像素; 文本缩进：-9999像素; } .fav_bar a.fav_print { 背景：url(‘/images/icons/print.gif’) 不重复0像素0像素 #FFF; } .fav_bar a.fav_print:hover { 背景：url(‘/images/icons/print.gif’) 不重复0像素0像素 #e6e9ea; } .fav_bar a.mobile-apps { 背景：url(‘/images/icons/generic.gif’) 不重复13像素7像素 #FFF; 背景大小：10像素; } .fav_bar a.mobile-apps:hover { 背景：url(‘/images/icons/generic.gif’) 不重复13像素7像素 #e6e9ea; 背景大小：10像素} .fav_bar a.fav_de { 背景：url(/images/icons/de.gif) 不重复0 0 #fff } .fav_bar a.fav_de:hover { 背景：url(/images/icons/de.gif) 不重复0 0 #e6e9ea } .fav_bar a.fav_acm_digital { 背景：url(‘/images/icons/acm_digital_library.gif’) 不重复0像素0像素 #FFF; } .fav_bar a.fav_acm_digital:hover { 背景：url(‘/images/icons/acm_digital_library.gif’) 不重复0像素0像素 #e6e9ea; } .fav_bar a.fav_pdf { 背景：url(‘/images/icons/pdf.gif’) 不重复0像素0像素 #FFF; } .fav_bar a.fav_pdf:hover { 背景：url(‘/images/icons/pdf.gif’) 不重复0像素0像素 #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ 高度：33像素！important; 宽度：35像素！important; 填充：0！important; 右边框：无！important; } .a2a_kit { 行高：24像素！important; 宽度：unset！important; 高度：unset！important; 填充：0！important; 右边框：unset！important; 左边框：unset！important; } .fav_bar .a2a_kit a .a2a_svg { 左边距：7像素; 上边距：4像素; 填充：unset！important; }

通过手术将设备植入与言语相关的大脑区域，或使用非侵入性系统如脑电图，可以捕捉到大脑活动。 ¶ 图片来源：A Health Blog

与Alexa和Siri等数字语音助手交流的方式可能很快就会改变，我们将能够通过思考要对设备说的话与它们进行交互。为了实现这一点，研究人员正在尝试解码与言语相关的大脑活动，利用脑机接口（BCIs）和人工智能（AI）的进展，这些系统可以捕捉大脑信号、分析它们并将其转化为指令。

“[如果我们在未来几年取得进展]，我相信我们可以将这些解决方案推向真实世界的应用，”德国卡尔斯鲁厄德国人工智能研究中心（DFKI）认知助手BCI-Lab的研究员Maurice Rekrut说道。

解码言语的BCIs对于帮助有特定疾病的人进行交流也具有特殊意义。诸如运动神经元疾病（MND）和肌萎缩性脊髓侧索硬化症（ALS）等疾病可以导致发送信息到与言语相关的肌肉的神经细胞受损，从而影响一个人的说话能力。患者通常使用凝视控制系统结合预测文本来键入他们想要传达的内容，但这可能是一个缓慢而令人沮丧的过程。英国巴斯大学dSPEECH项目的研究助理Scott Wellington说：“重要的是要尽力让人们恢复不仅是言语的自然性，还有流畅和快捷。”“这就是BCIs能够帮助我们实现的。”

脑部活动可以通过在与语言相关的脑区植入设备或者使用非侵入性系统（如脑电图仪）来捕捉，后者通过放置在头皮上的传感器来接收相同脑区的电信号（这种测试被称为脑电图或EEG）。然而，在有效捕捉语音信号之前，还有许多挑战需要克服。

例如，目前植入设备更有前景，因为它们可以直接放置在处理语音的脑区，从而产生更高分辨率的信号。然而，现有的设备无法移除而不损坏大脑。

许多研究人员还在尝试使用脑电图仪，但信号在到达头皮时被严重衰减。

惠灵顿说：“我们必须找到一些非常聪明的方法来对信号进行处理，将其分解为一组感兴趣的统计特征。”

在最近的研究中，惠灵顿和他的同事使用脑电波数据探索了商用脑电图头戴设备的语音解码能力。他们的目标是通过加入更复杂的机器学习和信号处理技术，确定是否能够实现与研究级脑电图设备相似的解码准确性。

在他们的实验中，他们关注了16个英语音素，即p、b、d和t等不同的声音单位。要求21名参与者佩戴现成的脑电图头戴设备，同时听到这些音素、想象它们并大声说出来。每次实例中都记录了从脑电图传感器接收到的脑活动。

研究人员利用这些数据训练了一个经典的机器学习模型和一个更复杂的深度学习卷积神经网络模型，来解码不同类别的音素。他们惊讶地发现，传统模型表现更好。惠灵顿说：“一次又一次地，研究大脑解码语音的人们发现，即使与深度学习模型相比，经典的机器学习模型通常仍然表现得相当好。” 他的团队不确定原因，但他们怀疑这是因为深度学习模型通常需要大量数据才能发挥作用。

然而，经典机器学习模型能够相当好地区分某些音素，但与成功解码可理解语音相去甚远。惠灵顿说，通过加入像Open AI的GPT-3这样的大型语言模型，其性能可以得到显着改善，这在该领域已经成为常规做法。这些模型考虑了上下文中潜在单词的概率。惠灵顿说：“根据英语语言的规则和所有英语音素的分布背后的统计数据，[大型语言模型]可以非常有信心地说，你试图说的单词可能是’house’。”

另一个问题是，语音解码系统通常关注产生语音的运动发音器官中的神经细胞的信号，而这些信号在患有运动神经元疾病（如运动神经元病和肌萎缩侧索硬化症）的人中被抑制。然而，在健康人中，这些信号会导致实际的语音，因此只适用于部分失去语言能力的人群。惠灵顿说：“关于尝试性言语解码的最前沿研究还表明，对于丧失自然言语能力的个体来说，尝试说话实际上可能是一项越来越费力的任务。”

相反，解码想象的言语——我们内心的独白或阅读声音的内容——可能导致任何人都可以使用且需要更少努力的系统。然而，解码想象的言语可能面临几个挑战。例如，大脑活动的模式可能高度变化，因为不同的个体通常以不同的方式思考说话：有些人可能想象自己说出一个词，而其他人则会形成在说话时移动肌肉的心理形象，产生不同类型的脑信号。

此外，由我们心理状态引起的背景活动（例如前一晚是否睡得好）可能会影响记录到的信号。这意味着与语音相关的脑活动对于单个个体来说并不一致。Rekrut说：“当你将一个[机器学习]分类器（算法）应用于第一天的数据时，参与者可能非常兴奋，但在第二天，当他们非常疲劳时，你会遇到问题。”

从十月开始的一个项目中，Rekrut和他的同事计划在几个星期到一年的时间里，在不同的条件下进行语音解码研究，比如早上和晚上。收集大量的数据以及参与者关于他们心理状态的信息，应该能够帮助他们深入了解各种因素如何影响脑活动和脑机接口的性能。Rekrut说：“我们将尝试向分类器提供所有这些数据，并看看能否找到模式。当参与者疲倦时，也许我们可以找到某种模式，然后从脑电活动中滤除这种模式，并将这些知识提供给社区。”

想象中的语言比尝试性的语言更难解码，因为神经信号更加微妙。在一个名为dSPEECH的新项目中，惠灵顿和他的同事们因此致力于通过研究两种不同的方式来提高解码的准确性，这两种方式最终可能会结合在一起：电皮层图形学，一种侵入性方法，涉及在头皮上植入电极以捕捉高分辨率信号的表面信息，以及sEEG——一种使用带有传感器的探针来深入大脑中的与语言相关的脑信号。

他们还将尝试通过开发信号处理和机器学习流程来解码英语语言中的44个音素，以合理的准确度。专注于可以组合的个别声音，应该会显著增加可以解码的单词数量。目前，最好的系统可以解码大约300个英语单词，这对于基本的交流来说还不够。

惠灵顿的目标是创建一个人们在沟通上没有任何限制的系统。这也将允许对名称进行解码，这对于当前的系统来说是具有挑战性的，因为需要记录与每个名称相关的脑活动。对于不能说话的人来说，能够用对方的名字称呼他们是沟通的重要组成部分，惠灵顿说。

“通过音素级解码，你突然可以说出任何你想说的单词，”他补充道。“我相信这是未来的发展方向。”

Sandrine Ceurstemont 是一位位于英国伦敦的自由科学作家。