Press "Enter" to skip to content

Tag: Ffmpeg

如何使用开源工具像专业人士一样克隆声音和视频口型同步

介绍 AI语音克隆风靡社交媒体。它开启了创造性的无限可能。你肯定在社交媒体上看过名人梗或AI语音配音。你想知道它是如何完成的吗?当然,许多平台提供像Eleven Labs这样的API,但我们能否免费使用开源软件来实现呢?答案是肯定的。开源界有TTS模型和嘴唇同步工具,用于实现语音合成。因此,在本文中,我们将探索用于语音克隆和嘴唇同步的开源工具和模型。 学习目标 探索用于AI语音克隆和嘴唇同步的开源工具。 使用FFmpeg和Whisper转录视频。 使用Coqui-AI的xTTS模型进行语音克隆。 使用Wav2Lip进行视频嘴唇同步。 探索该技术的实际用例。 本文作为 数据科学博客马拉松 中的一部分发表。 开源栈 正如你已经了解的,我们将使用OpenAI的 Whisper,FFmpeg,Coqui-ai的xTTS模型和Wav2lip作为我们的技术栈。但在深入代码之前,让我们简要讨论一下这些工具。同时感谢这些项目的作者。 Whisper:Whisper是OpenAI的自动语音识别(ASR)模型。它是一个使用超过650k小时的各种音频数据和相应转录进行训练的编码器-解码器变压器模型。这使其在多语言转录方面非常强大。 编码器接收音频段的对数梅尔频谱图,每个编码器块使用自注意力机制来理解音频信号的不同部分。解码器然后接收编码器的隐藏状态信息和学习的位置编码。解码器使用自注意力机制和跨注意力机制预测下一个标记。最终,它输出代表识别文本的一系列标记。有关Whisper的更多信息,请参考官方存储库。 Coqui TTS:TTS是Coqui-ai的开源库。它包含多个文本到语音模型。它具有端到端模型,如Bark、Tortoise和xTTS,频谱图模型如Glow-TTS、FastSpeech等,以及声码器如Hifi-GAN、MelGAN等。此外,它提供了一个统一的API用于推断、微调和训练文本到语音模型。在这个项目中,我们将使用xTTS,一个端到端的多语言语音克隆模型。它支持16种语言,包括英语、日语、印地语、普通话等。有关TTS的更多信息,请参考官方TTS存储库。 Wav2Lip:Wav2Lip是一个用于“A Lip Sync Expert Is All You Need for…

Leave a Comment