本人工智能论文提出了一种零样本个性化Lip2Speech综合方法：一种合成语音模型，以匹配嘴唇运动

本人工智能论文提出了一种零样本个性化Lip2Speech综合方法：一种合成语音模型，以匹配嘴唇运动机器学习第1张

中国科学技术大学的研究团队开发了一种新型机器学习模型，用于唇语合成（Lip2Speech）。该模型能够在零样本条件下生成个性化的合成语音，这意味着它可以对训练期间未遇到的数据类进行预测。研究人员采用了一种基于神经网络的生成模型——变分自编码器，来介绍他们的方法，该模型对数据进行编码和解码。

Lip2Speech合成涉及基于一个人的嘴唇动作预测出口语单词，它具有各种实际应用。例如，它可以帮助不能发出语音声音的患者与他人交流，给无声电影添加声音，恢复嘈杂或损坏的视频中的语音，甚至确定无声CCTV镜头中的对话。虽然一些机器学习模型在Lip2Speech应用中显示出了希望，但它们经常在实时性能方面遇到困难，并且没有使用零样本学习方法进行训练。

通常，为了实现零样本Lip2Speech合成，机器学习模型需要可靠的说话者视频录制，以提取有关他们语音模式的其他信息。然而，在仅有静默或不可理解的说话者面部视频的情况下，无法访问此信息。研究人员的模型旨在通过生成与给定说话者的外貌和身份匹配的语音，而不依赖于他们实际语音的录制来解决这个限制。

该团队提出了一种零样本个性化Lip2Speech合成方法，利用面部图像来控制说话者的身份。他们采用了变分自编码器来解开说话者身份和语言内容表示，允许说话者嵌入来控制未见过的说话者合成语音的声音特征。此外，他们介绍了相关的跨模态表示学习，以增强基于面部的说话者嵌入在语音控制方面的能力。

为了评估他们的模型性能，研究人员进行了一系列测试。结果是显着的，因为模型生成的合成语音准确地匹配了说话者的唇部动作、年龄、性别和整体外貌。这种模型的潜在应用是广泛的，从帮助语音障碍患者的辅助工具到视频编辑软件和协助警方调查的辅助工具。研究人员通过广泛的实验强调了他们提出的方法的有效性，证明合成的话语比其他方法更自然，并且与输入视频的个性特点相符。重要的是，这项工作代表了首次尝试使用面部图像而不是参考音频来控制语音特性的零样本个性化Lip2Speech合成。

总之，研究人员开发了一种在零样本条件下表现出色的Lip2Speech合成的机器学习模型。该模型可以通过利用变分自编码器和面部图像生成与说话者外貌和身份相匹配的个性化合成语音。该模型的成功表现为各种实际应用开辟了可能性，例如帮助语音障碍患者、增强视频编辑工具和协助警方调查等。

查看论文和参考文章。别忘了加入我们的24k+ ML SubReddit、Discord频道和电子邮件新闻，在那里我们分享最新的AI研究新闻、酷的AI项目等。如果您对上述文章有任何疑问，或者我们漏掉了任何内容，请随时通过电子邮件 Asif@marktechpost.com与我们联系。

在AI工具俱乐部中查看100多个AI工具

本文最初发布于MarkTechPost。