一种基于伪影噪声的深度伪造检测方法技术

技术编号:35025152 阅读:22 留言:0更新日期:2022-09-24 22:56
本发明专利技术为一种基于伪影噪声的深度伪造检测方法。包括如下步骤:(1)人脸提取:将视频划分为帧,对每一帧图像提取人脸部分,保存为only

【技术实现步骤摘要】
一种基于伪影噪声的深度伪造检测方法


[0001]本专利技术属于人工智能领域,具体涉及一种基于伪影噪声的深度伪造检测方法。

技术介绍

[0002]近年来,随着人工智能的逐步发展,深度伪造(Deepfakes)技术得到迅速发展并广泛传播应用,成为了人工智能时代下不可避免的风险。深度伪造利用人工智能与生成式深度学习算法,能够逼真地模拟和伪造新闻文字、图像和音视频等多媒体内容。深度伪造因其具备高度的以假乱真性、广泛的适用性以及较低的使用门槛,能够轻易地被恶意用户利用,被用于制造和传播欺诈性极高的虚假信息等活动,其中以AI换脸(face

swap)最具代表性和危害性。AI换脸通过对人物肖像进行替换实现混淆视听,极大地侵害他人权益,甚至能够操纵社会舆论,为社会稳定和网络安全带来严峻挑战。因此,对于以AI换脸为首的相关深度伪造的检测技术受到了广泛研究。
[0003]在AI换脸深度伪造的拟真度已超越正常人类认知辨别能力且仍在不断高速发展的现状下,以及对AI换脸深度伪造的广泛恶意滥用的现实背景下,伪造检测技术有着广阔的发展前景和必要的现实需求。深度伪造检测领域的相关研究随2017年开源的AI换脸项目在互联网上的广泛传播而井喷式增长,针对伪造视频的检测一方面可以促进对生成对抗网络伪造痕迹以及合成视频伪造痕迹的进一步研究,另一方面也符合当下的大众对于鉴伪现实需求,利用该技术可以对互联网中的视频进行有针对性的检测,从而鉴别其中的虚假信息。
[0004]深度伪造检测技术主要通过特征提取、模型建立、检测分类等步骤,决定检测性能的关键就在于如何选择可以有效区分真假人脸的相关特征。目前主流的深度伪造检测技术主要是通过寻找伪造制品与真实图像或视频之间肉眼难以观察的像素分布,凭借机器学习来辨别像素级差异来实现检测,一般称这些差异为伪影(artifacts)或者噪声(noise),这些工作都是通过伪造图像与真实图像之间固有的纹理、色彩、亮度等差异有效定位噪声来检测模型的生成;这一方向上更进一步的工作发现实现深度伪造的生成模型会在其生成的内容上留下特定的噪声,这种噪声类似于指纹,不同种类的生成模型和训练生成模型时存在的微小不同都能导致图像中出现不同的指纹特征,因此可以通过对图像或视频生成模型的指纹识别判断是否为深度伪造生成的,鉴于这个特性,不少的工作会通过寻找图像中特定的噪声,以此来判断图像是否由相应的特定模型生成。但是该类方法的泛化性较差,由于无法确定伪造制品的具体生成方式,往往局限于检测特定模型生成的深度伪造;同时现有方法虽然试图寻找这些伪影、噪声和指纹,但是没有办法解释这些区分原始内容与伪造制品的关键特征。导致现有的检测方法存在通用性差,可解释性差,不能有效对各种不同类型的深度伪造图像进行检测等问题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于生成式网络提取噪声替代特征并进行深度伪造
识别的检测方法,本专利技术用一种通用方法去提取噪声,最终得出结论这些噪声本质上就是一种差异,同时通过深度学习技术去识别提取得到的差异,对差异直接进行分析特征与鉴别,实现对于深度伪造更精准的预测,并且泛化性更强;解决了针对AI换脸等视觉深度伪造检测方法对作为检测关键的伪影噪声的使用不够充分而导致的泛化性差、检测精度低的问题。
[0006]实现本专利技术目的的技术解决方案为:一种基于伪影噪声的深度伪造检测方法,包括如下步骤:
[0007]步骤(1):人脸提取:将读入的视频划分为帧,对每一帧图像F提取人脸部分,保存为only

face的人脸原始图像P;
[0008]步骤(2):DIP生成:将步骤(1)提取出的人脸原始图像P输入DIP生成模型,进行迭代拟合,获取新生成的带有特定噪声的图像P
*

[0009]步骤(3):噪声提取:将人脸原始图像P与步骤(2)DIP生成的特定噪声图像P
*
作差得到伪影噪声d;
[0010]步骤(4):分类检测:将步骤(3)提取得到的伪影噪声d输入分类卷积神经网络进行训练,得到训练好的分类模型M;
[0011]步骤(5):模型测试推理:将测试视频按照步骤(1)

(3)相同的方法提取伪影噪声d,将得到的伪影噪声输入到步骤(4)训练好的分类模型M中,得到深度伪造检测的分类结果。
[0012]进一步的,步骤(2)具体为:
[0013]将提取出的only

face的人脸原始图像P缩放为固定尺寸(x,y),缩放后的每张图像P∈R
x
×
y
×3不经过人工加噪声直接输入DIP生成模型;
[0014]DIP网络中主干部分使用hourglass结构,生成模型将图像经过多层的下采样和skip结构提取图像本身的先验特征进行编码,并通过上采样与卷积的解码器重建生成图像,具体的公式如下:
[0015]θ
*
=minE(f
θ
(z);P)
[0016][0017]其中θ
*
是基于机初始化的网络参数,通过训练得来的参数最优解,P是输入的原始图像P,z是最初输入网络的一组固定的随机编码,与图像P相同大小,通道不一致,采用GAN模型的思想,P
*
是最后的输出,即带有特定噪声的图像P
*

[0018]在每次迭代过程中,评估P与P
*
的相似度并更新参数,生成带有特定噪音的图像P
*
代替无法获取的真实图像P0;
[0019]按照学习率lr=0.01,使用生成的带有特定噪声的图像P
*
和only

face的人脸原始图像P的mse作为损失函数,在adam优化器下进行迭代拟合,获取新生成的带有特定噪声的图像,并对数据进行打包为npz文件包;
[0020]进一步的,步骤(3)具体为:
[0021]读取步骤(2)打包的npz文件包,读取时根据打包时的具体deepfake类别为每一个包分配标签,组织成类别

{原始图像,DIP生成图像,图像编号}的字典;
[0022]根据上述字典,将人脸原始图像P与DIP生成带有特定噪声的图像P
*
作差得到噪声d(P,P
*
)作为特征x,用类别为每个图像的特征打上标签y,制作训练集、验证集和测试集,使
用dataset类创建数据集,并用dataloader进行封装。
[0023]进一步的,步骤(4)具体为:
[0024]将包含了提取的伪影噪声的训练集和验证集输入分类卷积神经网络进行训练,使用交叉熵损失函数,Leaky ReLU作为激活函数,经过4层卷积获得一个8维的特征向量,放入分类器中得到结果,以lr=10
‑3训练1000个epoch,得到训练好的分类模型。
[0025]进一步的,步骤(5)具体为:
[0026]将测本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于伪影噪声的深度伪造检测方法,其特征在于,包括如下步骤:步骤(1):人脸提取:将读入的视频划分为帧,对每一帧图像F提取人脸部分,保存为only

face的人脸原始图像P;步骤(2):DIP生成:将步骤(1)提取出的人脸原始图像P输入DIP生成模型,进行迭代拟合,获取新生成的带有特定噪声的图像P
*
;步骤(3):噪声提取:将人脸原始图像P与步骤(2)DIP生成的特定噪声图像P
*
作差得到伪影噪声d;步骤(4):分类检测:将步骤(3)提取得到的伪影噪声d输入分类卷积神经网络进行训练,得到训练好的分类模型M;步骤(5):模型测试推理:将测试视频按照步骤(1)

(3)相同的方法提取伪影噪声d,将得到的伪影噪声输入到步骤(4)训练好的分类模型M中,得到深度伪造检测的分类结果。2.根据权利要求1所述的方法,其特征在于,步骤(2)具体为:将提取出的only

face的人脸原始图像P缩放为固定尺寸(x,y),缩放后的每张图像P∈R
x
×
y
×3不经过人工加噪声直接输入DIP生成模型;DIP网络中主干部分使用hourglass结构,生成模型将图像经过多层的下采样和skip结构提取图像本身的先验特征进行编码,并通过上采样与卷积的解码器重建生成图像,具体的公式如下:θ
*
=minE(f
θ
(z);P)其中θ
*
是基于随机初始化的网络参数,通过训练得来的参数最优解,P是输入的原始图像P,z是最初输入网络的一组固定的随机编码,与图像P相同大小,通道不一致,采用GAN模型的思想,P
*...

【专利技术属性】
技术研发人员:唐金辉杜晓宇陈嘉煜
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1