Press "Enter" to skip to content

智胜深度伪造视频

图片来源:Getty Images

2022年3月,一段合成的乌克兰总统弗拉基米尔·泽连斯基的视频出现在各种社交媒体平台和一家全国性新闻网站上。在视频中,泽连斯基敦促自己的人民在与俄罗斯的战斗中投降;然而,说话的人根本不是泽连斯基。这一分钟的视频是一段 deepfake,即通过深度学习模型生成的合成视频,总统很快发布了一条合法的信息,重申其国家保卫其土地和人民的承诺。

乌克兰政府已经警告公众,称国家赞助的 deepfake 可能会成为俄罗斯信息战的一部分。这段视频本身并不是特别逼真或令人信服,但 deepfake 的质量正在迅速提高。”合成媒体让你有点印象深刻,”加州大学伯克利分校计算机科学家和数字取证专家 Hany Farid 说。”在五年内,我们已经从相当糟糕、低分辨率的视频转向了全面、高分辨率、非常复杂的 ‘汤姆·克鲁斯 TikTok’ deepfake。它正在以光速发展。我们正在进入一个阶段,其中扭曲现实变得令人惊讶地容易。”

在某些情况下,比如前面提到的 TikTok 例子,其中一家公司生成了一组非常接近这位著名演员的视频,结果可能会很有趣。初创公司正在为公司开发 deepfake 技术,用于营销视频,好莱坞影片制片厂正在电影中插入超真实的数字人物,与人类演员一起出现。然而,研究人员表示,这种技术的恶意使用,包括发布虚假信息、勒索和其他不良目的,令人担忧。如果泽连斯基的 deepfake 和那些汤姆·克鲁斯剪辑中的一个一样逼真,那么这段合成视频可能会带来可怕的后果。

恶性应用的潜力,以及 deepfake 技术发展的速度,引发了生成合成媒体的团体和寻找更有效和更具弹性的检测方法的科学家之间的竞赛。”我们正在进行这个象棋游戏,检测试图跟上或超越创造,”纽约州立大学水牛城分校计算机科学家 Siwei Lyu 说。”一旦他们知道我们用来检测它们的技巧,他们就可以修复他们的模型,使检测算法不那么有效。所以每当他们修复一个,我们就必须开发一个更好的.”

deepfake 技术的根源可以追溯到2014年生成对抗网络(GAN)的开发。GAN 方法将两个模型相互对抗。在介绍这个概念的论文中,Ian Goodfellow 和他的同事将这两个模型描述为伪钞制造商和警察之间的 “游戏”;前者试图欺骗后者,竞争推动它们到接近真实事物的地步。在 deepfake 中,第一个模型生成一个合成图像,第二个试图将其检测为假。随着这对迭代,生成模型纠正其缺陷,结果图像越来越好。

智胜深度伪造视频 数据科学 第2张 图:一段 deepfake 视频,看起来像是乌克兰总统弗拉基米尔·泽连斯基告诉他的同胞放下武器向俄罗斯投降。

在早期,人们相对容易识别出虚假视频;肤色的不一致或面部结构和运动的不规则性很常见。然而,随着合成引擎的改进,检测变得越来越困难。”人们经常认为自己比他们更擅长检测假内容。我们会被迷惑,但我们不知道。”英国兰卡斯特大学研究 deepfake 识别的心理学家 Sophie Nightingale 说。”我们可以说,我们已经到了人类感知系统无法判断某些事物是真实还是虚假的地步。”

为了跟上技术的发展,研究人员一直在开发工具,以便发现数字伪造的显着迹象。2018年,ACM 杰出会员 Lyu 和他在水牛城大学的一名学生正在研究 deepfake 视频,希望构建更好的检测模型。在观看了无数的例子并使用公开可用的技术生成了自己的视频后,他们注意到了一些奇怪的事情。”这些脸不眨眼!”Lyu 回忆道。”他们没有真实的眨眼,有些情况下他们根本不眨眼。”

最终,他们意识到视频中缺乏眨眼的原因是训练数据的逻辑结果。生成合成视频的模型是基于给定主题的静态图像进行训练的。通常情况下,摄影师不会发布他们的主题闭眼的图像。Lyu解释道:“我们只上传有着睁开眼睛的图像,这种偏见被学习和复制了。”

Lyu和他的学生创建了一种基于缺乏眨眼或眨眼不规则模式的深度伪造检测模型,但是在他们发布结果后不久,下一波合成视频就出现了。虽然Zelenskyy的视频质量较差,但确实有乌克兰总统眨眼的镜头。

眨眼的工作反映了检测深度伪造的主要方法:寻找生成或合成过程的证据或痕迹。Lyu说:“这些生成模型从训练数据中了解到他们重现的主题,你给他们大量的数据,他们可以创建逼真的合成媒体,但这是一种学习真实世界的低效方式,因为发生在真实世界中的任何事情都必须遵循真实物理世界的规律,而这些信息间接地纳入了训练数据。”同样,Lyu还确定了合成主题眼角膜反射和视网膜微小差异之间的不一致性。

深度学习研究员尤瓦尔·尼尔金,目前是CommonGround-AI的研究科学家,开发了一种检测方法,将视频中的脸部内部与周围环境(包括头部、颈部和头发区域)进行比较。尼尔金说:“已知的视频深度伪造方法不会改变整个头部。他们只关注脸部的内部部分,因为虽然人脸具有简单的几何形状,易于建模,但整个头部非常不规则,包含许多非常细微的细节,难以重建。”尼尔金开发了一种模型,将主题的面孔分成内外两部分,并从每个部分提取身份信号。他解释说:“如果我们发现两个部分的信号之间存在差异,那么我们可以说有人改变了主题的身份。”尼尔金补充说,这种方法的优点在于它不是专注于与特定深度伪造生成模型相关的缺陷或痕迹,因此可以应用于未见过的技术。

最终,他们意识到视频中缺乏眨眼的原因是训练数据的逻辑结果。

在加州大学伯克利分校,法里德正在开创一种检测方法,这种方法甚至更进一步远离了对特定痕迹的关注。法里德和他的学生们将任务反转,设计了一个工具来研究一个人的实际、验证过的视频素材。该小组的解决方案寻找该素材中780个不同的面部、手势和语音特征之间的相关性,以建立一个更好的模型,即特定人物的面部、语音和手势模式。例如,当你说话时转动头部,会改变你的声道,并产生声音的细微变化,该模型识别出这种联系。至于泽林斯基,他的微笑有一种特定的不对称性,说话时的手臂有一些独特的习惯。

研究人员汇总所有这些观察和相关性,创建一个著名人物的模型或分类器,如泽林斯基。随着更多的相关性被合并,分类器的准确性也在增加,当该小组纳入全部780个特征时,准确率达到了100%。当分类器研究一个视频,并且多个特征不在模型中时,那么这项技术会得出结论,该样本实际上不是该主题。法里德解释说:“在某种程度上,我们不是在构建一个深度伪造检测器,而是在构建一个泽林斯基检测器。”

法里德认识到合成引擎不断改进;他的小组不公开发布其分类器背后的代码,希望减缓这种演进。目前,他们正在扩展数据库并为更多的世界领袖创建检测器。

随着深度伪造生成器的改进,真实媒体和合成媒体之间的界限变得越来越难以区分,开发新的快速检测手段变得越来越重要。心理学家和深度伪造研究人员Nightingale解释说:“在正确和错误之间取得平衡,并确保人们依赖和信任他们应该依赖和信任的事情,而不是不应该信任的事情,这是一个困难但关键的事情。”否则,我们可能会陷入不信任任何事情的境地。

智胜深度伪造视频 数据科学 第3张 进一步阅读

Goodfellow, I. et al. “Generative adversarial networks,” Communications , Volume 63, Issue 11, November 2020.

Nightingale, S. 和 Farid, H. “AI 合成的面孔与真实面孔无法区分,且更可信”,PNAS,2022 年 2 月 14 日。

Boháček, M. 和 Farid, H. “利用面部、手势和语音习惯保护世界领导人免受深度伪造”,PNAS,2022 年 11 月 23 日。

Nirkin, Y. 等人。”基于面部和其上下文的差异的 Deepfake 检测”,IEEE 模式分析和机器智能交易,第 44 卷,第 10 期,2022 年 10 月。

Li, Y.,Chang, M. 和 Lyu, S. “In Ictu Oculi:通过检测眨眼来揭示 AI 创建的假视频”,2018 年香港 IEEE 信息取证和安全研讨会(WIFS)。

返回顶部

作者

Gregory Mone 是即将出版的书籍《心脏和芯片》的合著者,与 Daniela Rus 合作。

©2023 ACM 0001-0782/23/7

未经费用许可,允许制作本作品或全部的数字或印刷副本,但不得为牟利或商业目的复制或分发,副本必须在第一页上标注此通知和完整引用。必须尊重 ACM 拥有的此工作组件的版权。允许带有信用的摘要。否则,复制、重新发布、在服务器上发布或分发到列表中都需要事先得到特定许可和/或费用。请求出版许可的权限来自 permissions@acm.org 或传真(212)869-0481。

数字图书馆由计算机协会出版。版权所有 © 2023 ACM,Inc。

Leave a Reply

Your email address will not be published. Required fields are marked *