Press "Enter" to skip to content

韩国大学的研究人员推出了HierSpeech++:一种具有突破性的人工智能方法,用于高保真度、高效率的文本转语音和语音转换

韩国大学的研究人员开发了一种新的语音合成器,名为HierSpeech++。 这项研究旨在创造出稳健、富有表现力、自然且类似人类的合成语音。 团队的目标是在不依赖文本-语音配对数据集的情况下实现这一目标,并改善现有模型的缺点。 HierSpeech++旨在填补语音合成中的语义和声学表征差距,从而最终改善风格适应性。

到目前为止,基于LLM的零样本语音合成存在一定的局限性。 但是,HierSpeech++已经针对这些限制进行了解决,并改进了鲁棒性和表现力,同时解决了与慢推断速度有关的问题。 通过利用基于文本和韵律提示的自监督语音和F0表示的文本到向量框架,已经证明了HierSpeech++优于基于LLM和扩散的模型的性能。 这些速度、鲁棒性和质量的提升确立了HierSpeech++作为一种功能强大的零样本语音合成器。

HierSpeech++使用分层框架生成语音而无需预先训练。 它采用文本到向量框架来开发基于文本和韵律提示的自监督地址和F0表示。 使用分层变分自编码器和生成的向量、F0和语音提示来产生语音。 该方法还包括高效的语音超分辨率框架。 全面评估使用各种预先训练的模型和实现,采用log-scale Mel错误距离、感知语音质量评估、音高、周期性、有声/无声F1分数、自然度、平均意见分和语音相似性MOS等客观和主观指标。

HierSpeech++在零样本情况下实现了合成语音的优越自然度,提高了鲁棒性、表现力和说话者相似性。 使用自然度平均意见分和语音相似性MOS等主观指标评估了语音的纯真性,并且结果显示HierSpeech++优于真实语音。 进一步将语音超分辨率框架从16 kHz提高到48 kHz,进一步提高了地址的自然度。 实验结果还证明,HierSpeech++中的分层变分自编码器优于基于LLM和扩散的模型,使其成为一种强大的零样本语音合成器。 研究还发现,使用噪声提示的零样本文本到语音合成验证了HierSpeech++在生成未知说话者的语音方面的有效性。 分层合成框架还可以实现多样化的韵律和语音风格转换,使合成语音更加灵活。

总而言之,HierSpeech提供了一种实现零样本语音合成人级质量的高效而强大的框架。 它在语义建模、语音合成、超分辨率和韵律和语音风格转换方面的解耦,提升了合成语音的灵活性。 即使在小规模数据集的情况下,该系统也表现出鲁棒性、表现力、自然度和说话者相似性的改进,并且具有显著更快的推断速度。 并且该研究还探索了跨语言和情感可控语音合成模型的潜在扩展。

Leave a Reply

Your email address will not be published. Required fields are marked *