“`
在最近的时期,随着人工智能的极度流行,自动语音识别(ASR)领域取得了巨大的进步。它改变了语音激活技术和人机交互的面貌。有了ASR,机器可以将口语转化为文字,这对于各种应用来说都是必不可少的,包括虚拟助手和转录服务。研究人员一直在努力寻找底层算法,因为需要更精确、有效的ASR系统。
在NVIDIA最近的研究中,一队研究人员研究了连接时序分类(CTC)模型的缺点。在ASR流水线中,CTC模型已成为获得很高准确度的主要竞争者。这些模型尤其擅长处理语音语言的细微差别,因为它们非常擅长解释时序序列。尽管准确,但传统的基于CPU的波束搜索解码方法限制了CTC模型的性能。
波束搜索解码过程是准确转录口语的关键阶段。传统的贪婪搜索方法使用声学模型来确定每个时间步长最有可能选择的输出令牌。在处理上下文偏差和外部数据时,这种方法面临许多挑战。
为了克服所有这些挑战,该团队提出了基于GPU加速的加权有限状态传递器(WFST)波束搜索解码器作为解决方案。这种方法旨在与当前的CTC模型无缝集成。有了这个GPU加速的解码器,可以提高ASR流水线的性能,同时提高吞吐量、降低延迟,并支持即时合成以进行针对特定话语的单词增强等功能。建议的GPU加速解码器特别适用于流式推理,因为它具有更高的流水线吞吐量和更低的延迟。
该团队通过在离线和在线环境中测试解码器来评估这种方法。与最先进的CPU解码器相比,GPU加速解码器在离线场景中的吞吐量提高了多达七倍。在在线流媒体场景下,GPU加速解码器实现了超过八倍的较低延迟,同时保持相同或更高的词错误率。这些研究结果表明,使用建议的GPU加速WFST波束搜索解码器可以显著提高效率和准确性。
总而言之,这种方法绝对可以在克服CTC模型中基于CPU的波束搜索解码的性能限制方面发挥出色。建议的GPU加速解码器是CTC模型在离线和在线环境中最快的波束搜索解码器,因为它提高了吞吐量,降低了延迟,并支持高级功能。为了帮助解码器与基于Python的机器学习框架集成,该团队在GitHub上提供了预构建的基于DLPack的Python绑定。这项工作增加了建议解决方案对于使用ML框架的Python开发人员的可用性和可访问性。代码存储库可以在https://github.com/nvidia-riva/riva-asrlib-decoder访问,其中描述了CUDA WFST解码器作为C++和Python库。
“`