基于人脸时序信息的人脸视频深度伪造检测方法与装置制造方法及图纸

技术编号:39826770 阅读:15 留言:0更新日期:2023-12-29 16:02
本发明专利技术提出一种基于人脸时序信息的人脸视频深度伪造检测方法和装置,包括:获取以标准真伪标签的人脸视频作为训练数据;通过基础网络对训练数据中多个视频帧提取特征,得到原始特征,以原始特征进行三维人脸重建,得到重建图像;基础网络对重建图像提取特征,得到重建特征;特征差分模块对原始特征以及重建图进行差分并对差分结果进行降维,得到差分特征;将重建特征和差分特征作为查询特征,并将原始特征作为待查询特征,分别输入查询模块,根据查询特征与待查询特征的相似度,对待查询特征的重新加权,得到加权差分特征和加权重建特征;自适应融合模块将原始特征

【技术实现步骤摘要】
基于人脸时序信息的人脸视频深度伪造检测方法与装置


[0001]本专利技术涉及机器学习

计算机视觉和图像识别分类
,特别涉及面向计算机视觉中的深度伪造检测问题


技术介绍

[0002]随着生成对抗网络技术的飞速发展,互联网中充斥着越来越多的生成内容,上述内容在不标注真假的情况下在互联网广泛传播,给社会稳定和个人名誉都带了很大挑战,因此学术界和工业界针对其中危害最大的人脸深度伪造内容展开了检测相关研究,取得了一定的研究成果,但在该领域仍有些亟待解决的问题,比如检测的泛化性问题

[0003]如何提高深度伪造检测的泛化性一直是深度伪造检测中的一个研究热点,以
FaceForensics++
数据集为例,包含四种伪造方法
DeepFakes

FaceSwap

Face2Face,NeuralTexture)
和真实视频构成的视频集,正常测试时也应包含该四种伪造方法和真实图像,但是在实际的深度伪造系统部署时,在互联网中搜集的视频中大概率会存在该四种伪造之外的伪造方法,能否针对该类训练集中不存在的伪造方法进行有效的检测成为深度伪造检测系统落地的关键

比如测试数据集中除了训练集中的四种伪造方法,还添加了泛化性测试方法,在测试时,对测试指标进行单独统计,其检测精度和
AUC
指标即可作为泛化性衡量结果

[0004]目前的研究中,训练集和测试集同分布的情况下,即同源检测结果,其准确率可达
90
%以上,但是在异源情况下准确率甚至不到
60

70


该问题的难点在于深度神经网络的基本统计原理要求训练集和测试集是同分布的,若测试集分布与训练集分布差异较大,则神经网络难以在该任务上取得好的效果

因此直接采用设计模型进行真假分类训练的方法难以取得好的泛化性效果,其根本原因是不同伪造方法的伪造痕迹是不一致的,尤其是新出现的伪造方法,其在逼真程度上都比之前的方法有大幅进步

因此有学者在时序上寻找伪造痕迹,比如寻找时序嘴唇的不一致性,利用三维卷积寻找整个视频的不一致性等

也有一些学者将注意力集中在换脸的最后一个步骤,在换脸过程中,换脸方法多种多样,但最后都需要贴合回源图片中,因此有学者提出检测其贴合痕迹进行泛化性检测


技术实现思路

[0005]为解决上述现有的伪造检测人脸结构挖掘不充分,和过度关注人脸伪造瑕疵而引起的泛化性问题,不同于现有的提高伪造检测泛化性的方案,本专利技术提出基于三维特征重建不一致的人脸伪造检测方法,该方法基于三维人脸重建图像的修复作用,将深度伪造检测问题转化为待检测图像和重建图像的不一致性问题,将检测重点从伪造痕迹转移到与参考图的不一致性上,进而提高伪造检测的泛化性

[0006]本专利技术提出该方法的动机来自对人脸三维重建结果的观察,通过观察,将图像使用三维特征重新渲染为一张重建图像时,重建的图像和待检测图像会有一定的差异,人脸的皮肤将会变得平滑,伪造痕迹消失,该差异就好像把伪造痕迹“修复”了一样

如图1所示,
左侧为真实图像和伪造图像,右侧为伪造图像的重建和真实图像的重建,可知伪造图像的重建与伪造图像之间有明显区别,而真实图像的重建与真实图像之间基本没有区别

出现该现象的原因是:三维模型的表达方式是在一个标准
(
平均
)
人脸上进行增减,无法表达由伪造构成的换脸瑕疵,该瑕疵不属于正常人脸所有,因此可以设计神经网络来检测该不一致性,同时,由于该种差异同时存在于多种伪造方法中,与现有方法相比,并没有过拟合到深度伪造痕迹上,因此本专利技术认为该差异可作为深度伪造检测提高泛化性的一个突破口

[0007]本专利技术的研究动机是查询两张图的不一致性,例如真实视频前后帧有一定的连贯性,比如同一个人的视频,鼻子大小是不会变化的

伪造视频由于制作粗糙等问题,他里面的人脸形状

五官等在视频中是会有一定变化

而由注意力机制构成的转换模型的解码器天然适合类似的查询任务,因此本专利技术将转换模型的解码器作为基础提出了注意力查询网络

最后为了融合多个网络的查询结果和获取最原始图像特征,本专利技术提出了伪造特征自适应融合模块进行最后的融合,最终构成了本专利技术节提出的基于三维特征重建不一致的人脸伪造检测方法

[0008]具体来说,本专利技术提出了一种基于人脸时序信息的人脸视频深度伪造检测方法,其中包括:
[0009]初始步骤,构建包括以特征提取器作为基础网络

特征差分模块

查询模块和自适应融合模块的深度伪造检测模型;获取以标准真伪标签的人脸视频作为训练数据;
[0010]图像重建步骤,通过该基础网络对该训练数据中多个视频帧提取特征,得到原始特征,以该原始特征进行三维人脸重建,得到重建图像;该基础网络对该重建图像提取特征,得到重建特征;
[0011]特征差分步骤,该特征差分模块对该原始特征以及重建图进行差分并对差分结果进行降维,得到差分特征;
[0012]查询加权步骤,将该重建特征和该差分特征作为查询特征,并将该原始特征作为待查询特征,分别输入该查询模块,根据该查询特征与该待查询特征的相似度,对该待查询特征的重新加权,得到加权差分特征和加权重建特征;
[0013]模型训练步骤,该自适应融合模块将该原始特征

该加权差分特征和该加权重建特征加权融合后进行真伪分类,并根据分类结果和该真伪标签构建损失函数,以更新训练该深度伪造检测模型;
[0014]深伪检测步骤,采用训练完成后的该深度伪造检测模型执行人脸视频伪造检测人物,得到待检测人脸视频是否属于伪造视频的分类结果

[0015]所述的基于人脸时序信息的人脸视频深度伪造检测方法,其中该图像重建步骤包括:
[0016]该基础网络基于下式提取人脸相关特征和人脸无关特征:
[0017]α
i
,
β
i
,
δ
i
,p
i
,
γ
i

RNet(v
i
)
[0018]这里
v
i
代表抽取得到的第
i
个视频帧
,RNet
代表人脸三维特征提取模型,
α
i
,
β
i
,
δ
i
属于该人脸相关特征,分别为人脸身份特征

人脸表情特征

人脸纹理特征;
p
i
,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于人脸时序信息的人脸视频深度伪造检测方法,其特征在于,包括:初始步骤,构建包括以特征提取器作为基础网络

特征差分模块

查询模块和自适应融合模块的深度伪造检测模型;获取以标准真伪标签的人脸视频作为训练数据

图像重建步骤,通过该基础网络对该训练数据中多个视频帧提取特征,得到原始特征,以该原始特征进行三维人脸重建,得到重建图像;该基础网络对该重建图像提取特征,得到重建特征;特征差分步骤,该特征差分模块对该原始特征以及重建图进行差分并对差分结果进行降维,得到差分特征;查询加权步骤,将该重建特征和该差分特征作为查询特征,并将该原始特征作为待查询特征,分别输入该查询模块,根据该查询特征与该待查询特征的相似度,对该待查询特征的重新加权,得到加权差分特征和加权重建特征;模型训练步骤,该自适应融合模块将该原始特征

该加权差分特征和该加权重建特征加权融合后进行真伪分类,并根据分类结果和该真伪标签构建损失函数,以更新训练该深度伪造检测模型;深伪检测步骤,采用训练完成后的该深度伪造检测模型执行人脸视频伪造检测人物,得到待检测人脸视频是否属于伪造视频的分类结果
。2.
如权利要求1所述的基于人脸时序信息的人脸视频深度伪造检测方法,其特征在于,该图像重建步骤包括:该基础网络基于下式提取人脸相关特征和人脸无关特征:
α
i
,
β
i
,
δ
i
,p
i
,
γ
i

RNet(v
i
)
这里
v
i
代表抽取得到的第
i
个视频帧
,RNet
代表人脸三维特征提取模型,
α
i
,
β
i
,
δ
i
属于该人脸相关特征,分别为人脸身份特征

人脸表情特征

人脸纹理特征;
p
i
,
γ
i
属于该人脸无关特征,分别为光照特征和姿态特征;该人脸相关特征驱动
3DMM
模型得到三维重建人脸模型中各个顶点的位置和颜色,结合该人脸无关特征渲染该三维重建人脸模型,得到二维重建人脸图像,将该二维重建人脸图像贴回该视频帧,替换视频帧中人脸图像,得到该重建图像
3.
如权利要求1所述的基于人脸时序信息的人脸视频深度伪造检测方法,其特征在于,该查询加权步骤包括:该查询模块包括基于注意力机制的
Transformer
编码器和
Transformer
解码器,分别在该重建特征和该差分特征加入一致性标识,得到该查询特征,在该原始特征加入一致性标识,得到该待查询特征;将该查询特征输入该
Transformer
编码器进行特征编码,该
Transformer
解码器根据编码结果与该待查询特征的相似度,通过对该待查询特征的重新加权完成解码;该模型训练步骤包括:该自适应融合模块取该加权差分特征和该加权重建特征中的一致性标识,并将其与该分类特征进行加权融合后送入线性分类层进行真伪分类任务
。4.
如权利要求1所述的基于人脸时序信息的人脸视频深度伪造检测方法,该深度伪造检测模型还包括用于提取该原始特征的图像信息的线性分类头;该模型训练步骤包括:将
该原始特征的图像信息

该加权差分特征和该加权重建特征加权融合后进行真伪分类
。5.
一种基于人脸时序信息的人脸视频深度伪造检测装置,其特征在于,包括:初始模块,构建包括以特征提...

【专利技术属性】
技术研发人员:唐胜王志浩曹娟
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1