新的研究让文本到语音无缝对齐

克服无需明确指定的序列长度不匹配问题。

简介

训练文本-语音（多模态模型）存在自身的问题。由于音频采样率高，音频的序列长度比相应的文本要长得多。为了同时训练文本和音频，我们需要克服这种差异（懒散地，而不必生成显式标注的训练数据）。本论文解决了这个问题。

摘要

过去一年，在以跨模态表示空间为基础的文本引发的图像生成领域取得了惊人的进展，其中文本和图像领域共同表示。

在自动语音识别（ASR）中，这个想法被应用为既能训练不成对的语音和文本，又能扩展到非常大参数模型容量的联合语音-文本编码器。虽然这些方法表现出了潜力，但它们需要特殊处理语音和文本之间固有的序列长度不匹配问题，要么通过上采样启发式方法，要么通过显式对齐模型。

在这项工作中，我们提供了证据，即联合语音-文本编码器通过忽略序列长度自然地实现了跨模态的一致表示，并且认为一致性损失可以容忍长度差异并简单地假设最佳对齐。我们展示了这样的损失在大参数单语和多语言系统中提高了下游的词错误率（WER）。

新的研究让文本到语音无缝对齐 | Google 四海第1张

wVisualizations of embedding distances (a) and the best alignment (b) between an audio embedding on the horizontal axis and the corresponding text embedding on the vertical axis. Darker points in (a) represent pairs of audio and text frames with nearby embeddings, and yellow points in (b) represent pairs in the recovered best alignment

解决方案的理论

分别在两种模态（这里是音频和文本）上训练一个大型编码器。这样，每种模态都提供了一个不成对的示例，元模型学习如何在时间维度上映射成对的示例。这种表示可以在图像+文本模态中提供最先进的性能。然而，在音频+文本模态组合上效果不佳。

语音识别面临两种序列模态的特殊挑战，其中之一是…