韩国大学的研究人员推出了HierSpeech++：一种具有突破性的人工智能方法，用于高保真度、高效率的文本转语音和语音转换

韩国大学的研究人员开发了一种新的语音合成器，名为HierSpeech++。这项研究旨在创造出稳健、富有表现力、自然且类似人类的合成语音。团队的目标是在不依赖文本-语音配对数据集的情况下实现这一目标，并改善现有模型的缺点。 HierSpeech++旨在填补语音合成中的语义和声学表征差距，从而最终改善风格适应性。

到目前为止，基于LLM的零样本语音合成存在一定的局限性。但是，HierSpeech++已经针对这些限制进行了解决，并改进了鲁棒性和表现力，同时解决了与慢推断速度有关的问题。通过利用基于文本和韵律提示的自监督语音和F0表示的文本到向量框架，已经证明了HierSpeech++优于基于LLM和扩散的模型的性能。这些速度、鲁棒性和质量的提升确立了HierSpeech++作为一种功能强大的零样本语音合成器。

HierSpeech++使用分层框架生成语音而无需预先训练。它采用文本到向量框架来开发基于文本和韵律提示的自监督地址和F0表示。使用分层变分自编码器和生成的向量、F0和语音提示来产生语音。该方法还包括高效的语音超分辨率框架。全面评估使用各种预先训练的模型和实现，采用log-scale Mel错误距离、感知语音质量评估、音高、周期性、有声/无声F1分数、自然度、平均意见分和语音相似性MOS等客观和主观指标。

HierSpeech++在零样本情况下实现了合成语音的优越自然度，提高了鲁棒性、表现力和说话者相似性。使用自然度平均意见分和语音相似性MOS等主观指标评估了语音的纯真性，并且结果显示HierSpeech++优于真实语音。进一步将语音超分辨率框架从16 kHz提高到48 kHz，进一步提高了地址的自然度。实验结果还证明，HierSpeech++中的分层变分自编码器优于基于LLM和扩散的模型，使其成为一种强大的零样本语音合成器。研究还发现，使用噪声提示的零样本文本到语音合成验证了HierSpeech++在生成未知说话者的语音方面的有效性。分层合成框架还可以实现多样化的韵律和语音风格转换，使合成语音更加灵活。

总而言之，HierSpeech提供了一种实现零样本语音合成人级质量的高效而强大的框架。它在语义建模、语音合成、超分辨率和韵律和语音风格转换方面的解耦，提升了合成语音的灵活性。即使在小规模数据集的情况下，该系统也表现出鲁棒性、表现力、自然度和说话者相似性的改进，并且具有显著更快的推断速度。并且该研究还探索了跨语言和情感可控语音合成模型的潜在扩展。