当前位置: 首页 > 专利查询>北京大学专利>正文

一种针对深度伪造的主动防御方法、系统技术方案

技术编号:35455126 阅读:66 留言:0更新日期:2022-11-03 12:11
本发明专利技术公开了一种针对深度伪造的主动防御方法、系统,属于人工智能安全领域。本发明专利技术生成一种模型通用的主动防御水印,将该水印嵌入包含人脸信息的媒体后可使深度伪造模型的生成扭曲,并可通过该水印检测出该媒体内容是否经历过深度伪造,彻底防止深度伪造篡改。本发明专利技术对多种深度伪造模型具有防御能力,且无需深度伪造模型结构信息,即可达到防御效果。即可达到防御效果。即可达到防御效果。

【技术实现步骤摘要】
一种针对深度伪造的主动防御方法、系统


[0001]本专利技术属于人工智能安全领域,涉及计算机视觉、深度伪造、主动防御等深度学习技术。

技术介绍

[0002]随着深度学习技术的不断发展,对人脸图像和视频进行修改的技术:深度伪造(Deepfake) 在互联网上爆发式流行。一般地,深度伪造技术通过属性修改或面部替换修改人脸,可以修改发色、脸型等外形特征,也可将人脸替换到其他的视频和图像上,使人物做出不符其身份的行为,或传达虚假信息。如StarGAN(StarGAN:Unified Generative Adversarial Networks forMulti

Domain Image

to

Image Translation)可以由一张原始人脸图片生成不同面部特征和表情的人脸篡改图像;InterfaceGAN(Interpreting the Latent Space of GANs for Semantic Face Editing) 通过隐变量编辑,可以生成拍照角度可控的人脸图像。
[0003]许多短视频平台已经开始采取措施监管和禁止换脸视频。但目前平台针对深度伪造采取的措施主要是被动检测,也即训练检测器对已经制作发布的视频进行检测,判断是否为深度伪造内容。这种检测只能被动防御和事后取证,并不能阻止深度伪造内容的生成和传播,没有办法断绝虚假内容造成的恶劣影响;且面对日新月异的深度伪造模型,需要不断训练和更新检测器,成本代价十分高昂。
专利技术内容
[0005]为从断绝深度伪造带来的恶劣影响,本专利技术提出了一种针对深度伪造的主动防御方法、系统。
[0006]本专利技术提供的技术方案是:
[0007]一种针对深度伪造的主动防御方法,其特征在于,其步骤包括:
[0008]1)获得主动防御水印:准备多个深度伪造模型,已经训练好的深度伪造模型参数。具体包括:
[0009]1‑
1)将任意一张原始的训练图片和该图片加上防御水印(若为第一次训练,将水印初始化为随机噪音),输入到深度伪造模型中,得到原始图片和加上水印图片的篡改图片。
[0010]1‑
2)将损失在不同的深度伪造模型上回传,得到图片上的梯度序列。
[0011]1‑
3)综合各图片、各模型梯度序列,对其进行上下限约束后,得到一个防御水印。
[0012]1‑
4)每次训练时在上一次训练得到的防御水印的基础上更新水印,具体地,本次训练得到的水印需要乘上系数α(通常为0.01)和上一次的水印乘上系数1

α得到新的防御水印。
[0013]1‑
5)重复直至达到训练次数上限,得到可以使多个深度伪造模型的生成扭曲的主动防御水印。
[0014]2)训练水印嵌入和检测:具体包括:
[0015]2‑
1)准备一定数量的人脸图片;
[0016]2‑
2)训练一个训练编码器

解码器。其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数确保嵌入信息的不可见。之后,解码器读取嵌入后的图片,并将编码的水印解码出来,通过损失函数确保解码信息的准确率。当训练完成后,生成相对应的编码器和解码器权重。
[0017]3)深度伪造检测:具体包括:
[0018]3‑
1)准备需要保护的人脸图片(或需要保护的视频按帧切分),以及需要防御的深度伪造模型;
[0019]3‑
2)使用上一步得到的编码器,将主动防御水印嵌入到人脸图片后,将人脸图片输入到深度伪造模型,得到伪造后的图片;
[0020]3‑
3)通过上一步得到的解码器,将编码的水印从伪造后的图片中解码出来,和最初的嵌入水印作比较,当二者间的bit差异大于等于设定的阈值(通常为0.4),则认为该图片经过了深度伪造。
[0021]一种针对深度伪造的主动防御系统,其特征在于,该系统包括:
[0022]1)深度伪造模型接口模块:包括用于向深度伪造模型输入图片、并获取生成结果的函数;
[0023]2)主动防御水印生成模块:用于生成从多个深度伪造模型保护人脸的防御水印;具体地,该模块首先完成深度伪造模型接入,并调用基础水印生成算法,结合水印融合技术生成模型通用的主动防御水印。
[0024]3)主动防御水印嵌入模块:该模块训练编码器—解码器,利用编码器将主动防御水印生成模块生成的通用水印嵌入人脸图片。
[0025]4)水印防御效果评估模块:用于评估水印使深度伪造模型输出的扭曲程度;
[0026]5)深度伪造检测模块:通过主动防御水印嵌入模块提供的解码器,检测嵌入了水印的图片,以判断是否有深度伪造模型对这些图片进行了修改。
[0027]本专利技术的有益效果:
[0028]本专利技术生成一种模型通用的主动防御水印,将该水印嵌入包含人脸信息的媒体后可使深度伪造模型的生成扭曲,并可通过该水印检测出该媒体内容是否经历过深度伪造,彻底防止深度伪造篡改。本专利技术对多种深度伪造模型具有防御能力,且无需深度伪造模型结构信息,即可达到防御效果。
附图说明
[0029]图1为本专利技术主动防御水印的生成的示意图;
[0030]图2为本专利技术主动防御水印的嵌入及深度伪造检测的示意图。
具体实施方式
[0031]本专利技术设计一种针对深度伪造的主动防御系统,该系统包括深度伪造模型接口、水印生成、水印嵌入、防御效果评估以及深度伪造检测五个模块。其中:
[0032]1)深度伪造模型接口模块:包括用于向深度伪造模型输入图片、并获取生成结果
的函数;
[0033]2)主动防御水印生成模块:用于生成从多个深度伪造模型保护人脸的防御水印;具体地,该模块首先完成深度伪造模型接入,并调用基础水印生成算法,结合水印融合技术生成模型通用的主动防御水印。
[0034]3)主动防御水印嵌入模块:该模块训练编码器

解码器,利用编码器将主动防御水印生成模块生成的通用水印嵌入人脸图片。
[0035]4)水印防御效果评估模块:用于评估水印使深度伪造模型输出的扭曲程度;
[0036]5)深度伪造检测模块:通过主动防御水印嵌入模块提供的解码器,检测嵌入了水印的图片,以判断是否有深度伪造模型对这些图片进行了修改。
[0037]为进一步说明本专利技术,下面通过实例描述其具体实施方式,但不以任何方式限制该方法的适用范围。
[0038]以大规模的人脸属性数据集CelebA(CelebFaces Attributes Dataset: http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html)以及在该数据集上训练的深度伪造模型HiSD、 Stargan、AttGAN、Attentiongan作为攻击目标,采用PGD攻击算法作为攻击基础算法来说明如何生本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对深度伪造的主动防御方法,其特征在于,其步骤包括:1)获得主动防御水印;2)训练水印嵌入和检测:具体包括:2

1)准备一定数量的人脸图片;2

2)训练编码器

解码器,其中,编码器将上一步得到的主动防御水印嵌入到输入图像中,通过损失函数确保嵌入信息的不可见;解码器读取嵌入后的图片,并将编码的水印解码出来,通过损失函数确保解码信息的准确率;当训练完成后,生成相对应的编码器和解码器权重;3)深度伪造检测:具体包括:3

1)准备需要保护的人脸图片,以及需要防御的深度伪造模型;3

2)使用上一步得到的编码器,将主动防御水印嵌入到人脸图片后,将人脸图片输入到深度伪造模型,得到伪造后的图片;3

3)通过上一步得到的解码器,将编码的水印从伪造后的图片中解码出来,和最初的嵌入水印作比较,当二者间的bit差异大于等于设定的阈值,则认为该图片经过了深度伪造。2.如权利要求1所述的针对深度伪造的主动防御方法,其特征在于,步骤1)具体包括:1

1)将任意一张原始的训练图片和该图片加上防御水印,输入到深度伪造模型中,得到原始图片和加上水印图片的篡改图片;1

2)将损失在不同的深度伪造模型上回传,得到图片上的梯度序列;1

3)综合各图片、各模型梯度序列,对其进行上下限约束后,得到一个防御水印。3.如权利要求2所述的针对深度伪造的主动防御方法,其特征在于,每次训练时在上一次训练得到的防御水印的基础上更新水印,具体地,本次训练得到的水印需要乘上系数α和上一次的水印乘上系数...

【专利技术属性】
技术研发人员:王勇涛黄灏叶晓雨汤帜
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1