Press "Enter" to skip to content

AI打击冒充行为

尽管诈骗者利用该技术制造了复杂的电话诈骗,但计算机生成的语音也有积极的应用。¶来源:analyticsvidhya.com

今年早些时候,一首声称由歌手德雷克(Drake)和The Weeknd演唱的新歌在社交媒体上疯传。然而,后来发现这些艺术家与这首音乐无关,这首曲目是深度伪造:他们的声音是使用生成式人工智能(AI)合成的,这些算法从它们被训练的数据中学习模式,以产生相似的输出。(你可以在下面听到这首歌。)

同样,最近诈骗者利用这项技术制造了涉及家人或朋友被克隆声音紧急要求帮助解决紧急情况的电话诈骗。

纽约州立大学水牛城分校(University of Buffalo, State University of New York)计算机科学教授、Siwei Lyu表示:“最近的合成语音模型只需半分钟或一分钟的某人语音样本就能创建出逼真的人声。”“这项技术终于引起了人们的关注。”

计算机生成的语音也有积极的用途。那些因为运动神经元疾病(MND)等疾病而失去了说话能力的人现在可以通过几段以往的说话样本来重现他们的声音。它还可以帮助歌手加快制作新歌的过程,例如允许他们克隆自己的声音并快速生成示范曲轨,而不必录制。

然而,随着AI合成语音的质量提高并在我们的日常生活中变得更加普遍,我们需要考虑伦理问题和应对其滥用的技术。

李锦荷(Jin Ha Lee)是华盛顿大学信息学院的教授,他在看到声音克隆技术在创新方式中被使用后,开始对其伦理问题进行研究。例如,2021年,已故韩国摇滚巨星申海树(Shin Hae-shul)以合成的声音形式成为全息影像与韩国男子乐队BTS一起演出。“这是一种有趣的合作,跨越了时间的界限,”她说。

然而,李锦荷意识到在这样的场景中需要解决更深层次的问题。例如,即使已故艺术家的家人已经同意合成他们的声音并得到了补偿,但在没有实际人的许可下使用,这真的是道德的吗?李锦荷说:“展望未来,我认为我们不仅需要考虑如何保护目前在世的所有艺术家,还要考虑那些已经去世的艺术家。”

在最近的研究中,李锦荷和她的同事们调查了普通公众以及合成话语开发者和研究人员对AI生成的歌声的看法。为了收集公众的意见,他们分析了超过3,000条用户评论,这些评论是在在线视频上进行的,内容涉及使用AI重现在世和已故艺术家的声音,以及使用技术来操纵他们的声音或让他们用其他语言唱歌等用例。该团队还采访了六位正在开发语音合成技术的研究人员,了解他们关注的伦理问题以及应该实施的预防措施。

李锦荷和她的同事们发现,公众对于AI合成的歌声往往持负面看法,并且她想知道这种技术是否应该被发展。她认为公众对该技术的拒绝源于电影和流行文化中对AI的反乌托邦表现。另一方面,开发者们似乎更加乐观,部分原因是他们认为当前的技术还不如看起来那么先进,并且正在同时开发对策。“(他们)真的很注重的是它将支持人们而不是取代他们的想法,”李锦荷说。

其他研究小组更专注于开发检测深度伪造声音的方法。一种策略是寻找AI合成声音产生时生成的伪影。这些伪影主要在最后一步产生,当一种称为神经声码器的专用类型的神经网络用于从时间-频率表示中重构声音时。过去,伪影可能会产生嘶嘶声,但随着声码器的改进,这些声音变得不太可察觉。“我们凭借听觉很难听到它们,”Lyu表示。“另一方面,当我们以二维的时间-频率表示绘制它们时,它们变得更加明显。”

在最近的工作中,吕和他的同事使用了一个名为RawNet2的深度学习模型,基于神经声码器的伪装效果区分真实声音和合成声音,并根据这些结果将声音分类为真实声音或非真实声音。为了训练和测试他们的模型,他们使用了超过13,000个真实音频样本,并使用六种不同的尖端声码器从这些原始样本生成了超过79,000个合成声音样本。数据集中的超过55,000个样本用于训练,而超过18,000个样本用于测试。

吕和他的团队发现,该模型在对声音进行真伪分类方面表现良好。然而,需要清晰的音频才能避免伪影被背景噪音掩盖。当用该数据集中没有代表的声码器的合成音频进行测试时,系统的性能会下降。吕还担心聪明的攻击者可以通过处理音频来消除声码器伪影迹象,以打败这种技术。他表示:“我们完全意识到其中的限制。通过扩大数据集和设计网络模型架构来处理更微妙的伪影,我们可以在一定程度上改进性能。”

另一个团队现在正在采用一种不同的方法来检测深度伪造,该方法利用了与自然语音相比,深度伪造具有稍微更可预测特征的特点。密歇根州迪尔伯恩市密歇根大学电气与计算机工程学教授哈菲兹·马利克假设真实声音在说话速度、停顿或音调变化等方面更具变异性,与合成声音相比。然而,这些差异是微妙的,不总是人耳能察觉到的。

马利克和他的同事正在使用深度学习算法进行假设的测试。他们一直在创建一个大型数据集,用于训练和测试,其中包括名人演讲、谈话和采访的音频。他们还使用商业可用工具合成这些人的声音,以便将生成的二维波形与原始音频进行比较。马利克表示:“到目前为止,我们的假设是相当牢固的。当我们进行分析时,[差异]是明显的。”

马利克承认这是一个目标不断变化的情况,在这种情况下,当前的策略可能无法应对音频克隆质量的提升。然而,他预计未来将会采取更多主动措施,比如嵌入某种水印或监测合成内容的来源。他对打击错误信息充满激情,并希望他正在开发的工具能发挥一定作用。

马利克说:“在过去的10年里,深度伪造一直失控。为让人们看到真相做出贡献,对我来说意义重大。”

Sandrine Ceurstemont是一名自由撰稿的科学作家,居住在英国伦敦。

Leave a Reply

Your email address will not be published. Required fields are marked *