一种基于图像来源异常的Deepfake视频检测方法技术

技术编号:36775905 阅读:12 留言:0更新日期:2023-03-08 22:01
本发明专利技术公开了一种基于图像来源异常的Deepfake视频检测方法,步骤如下:对待检测视频进行分帧;获取各帧人脸的68个关键点,确定人脸矩形区域;在其上、下、左、右、左上、左下、右上及右下获取8个相邻矩形区域;将9个区域的尺寸都变换为224

【技术实现步骤摘要】
一种基于图像来源异常的Deepfake视频检测方法


[0001]本专利技术涉及计算机视觉和人工智能
,具体涉及一种基于图像来源异常的Deepfake视频检测方法。

技术介绍

[0002]近年随着深度学习技术的发展,通过强大且易于使用的Deepfake算法和工具,将可以生成能够以假乱真的人脸视频,能够做到动作流畅,表情生动,普通大众往往难以辨别。这类技术可能被用于恶意目的,如制造虚假色情视频,炮制虚假新闻,伪造法律证据等,从而对社会秩序造成严重影响。因此,增强对Deepfake视频的检测能力,具有重要的研究意义与迫切的实际需求。
[0003]目前对于Deepfake视频的检测方法主要包括两类,其一是利用人脸动作、表情、光照等特征的连续性,使用手工特征提取的方法来进行检测;其二是利用深度学习技术,构建检测网络,直接将Deepfake视频中的人脸图像输入网络,输出检测结果。然而对于两类检测方法,都需要准备大量的样本,对分类器进行训练优化。为了保障分类器的性能,所选则的训练样本必须同时包括真实视频和Deepfake伪造视频,以避免分类器的检测结果出现严重偏差。然而在实际应用当中,相比于真实视频,Deepfake篡改视频的获取更为困难,需要耗费大量的资源来收集制作。另外,由于训练只使用特定的样本进行,训练得到的分类器往往会受到样本内容的严重影响,导致其跨库检测性能严重下降。
[0004]由于现有的Deepfake视频检测方法自身仍存在上述局限性,很容易受到训练样本不足、缺乏攻击样本等问题的影响,导致算法跨库性能不佳。这表明Deepfake视频检测技术在实际应用当中仍然充满了挑战。

技术实现思路

[0005]为了解决现有技术中严重依赖训练样本,需要大量攻击样本视频,且跨库检测性能通常不佳等缺陷,本专利技术提供了一种基于图像来源异常的Deepfake视频检测方法。该方法利用了Deepfake视频当中人脸区域图像与周边图像来源不一致的本质特点,并在训练过程中利用了异常检测方法的特性,只需要利用真实视频样本来进行,有效解决了实际应用当中Deepfake伪造攻击样本较难大量获取,导致训练样本不平衡影响方法性能的问题,具有较高的跨库检测性能。
[0006]本专利技术的目的可以通过采取如下技术方案达到:
[0007]一种基于图像来源异常的Deepfake视频检测方法,其特征在于,包括以下步骤:
[0008]S1、对待检测视频进行分帧处理,得到各帧的帧图像,分别记为I0、I1、I2、

、I
N
‑1,其中N为视频总帧数;
[0009]S2、利用人脸关键点检测方法,对每一幅帧图像当中人脸的68个关键点进行检测定位,获取68个关键点中最上方点的纵坐标y
U
,最下方点的纵坐标y
D
,最左方点的横坐标x
L
,以及最右方点的横坐标x
R
,通过上述4个坐标确定一矩形区域,作为视频帧中的人脸矩形区
域,依次记为域,依次记为
[0010]S3、对于第i幅帧图像中的人脸矩形区域在其上、下、左、右、左上、左下、右上及右下方获取与其形状相同的8个相邻矩形区域,分别记为上方矩形区域下方矩形区域左方矩形区域右方矩形区域左上矩形区域左下矩形区域右上矩形区域以及右下矩形区域
[0011]S4、将上述9个矩形区域的尺寸都转换为224
×
224像素;
[0012]S5、构建特征提取网络N
f
和相似度比对网络N
s

[0013]S6、在训练阶段,只选择真实视频作为训练样本,获得其中各帧的9个转换尺寸后的区域,并两两组合得到36对样本,得到总数为视频总帧数乘以36的训练样本集;
[0014]S7、将一对样本通过共用参数的特征提取网络N
f
提取特征图,将两幅特征图按通道进行堆叠,再输入相似度比对网络N
s
,构成完整网络结构;
[0015]S8、利用训练样本集,以相似度比对网络N
s
输出0作为目标,对完整网络结构进行参数优化,完成特征提取网络N
f
和相似度比对网络N
s
的训练;
[0016]S9、在测试阶段,对待检测视频第i帧中的9个区域,将中间的人脸区域I
iF
与其他8个区域一一结合,构成8对检测样本,并输入训练好的完整网络中,得到8个相似度比对网络N
s
的输出值;
[0017]S10、计算8个输出值的平均值,作为第i帧中人脸是否为Deepfake伪造的判断标准,当平均值小于阈值T
F
时判定为真实,反之则判定为伪造;
[0018]S11、计算待检测视频所有帧中被判断存在伪造的帧所占比例,当比例小于阈值T
V
时判定该视频为真实视频,反之则评定为Deepfake伪造视频。
[0019]作为优选的技术方案,所述S2步骤中,使用Dlib机器学习库当中的shape predictor工具进行人脸68个关键点的检测定位。所述S2步骤中,使用训练好的Mask R

CNN网络对每一幅帧图像进行检测。
[0020]作为优选的技术方案,所述S4步骤中,使用8
×
8像素邻域的Lanczos图像插值算法,进行区域尺寸的转换。
[0021]作为优选的技术方案,所述S5步骤中,特征提取网络N
f
的结构为:输入为224
×
224
×
3的区域图像,接着依次为步幅stride为1的32通道输出3
×
3卷积层,ReLU激活函数,BN层,步幅stride为1的64通道输出3
×
3卷积层,接着为由6个DenseLayer组成的特征通道增长率为32的DenseBlock块,其中每个DenseLayer由1个BN层、1个ReLU激活函数和1个步幅stride为1的32通道输出3
×
3卷积层组成,接着为TransitionBlock块,由1个BN层、1个ReLU激活函数、1个步幅stride为1的64通道输出1
×
1卷积层和1个步幅stride为2的2
×
2平均池化层组成,接着为同样结构的DenseBlock块,接着为同样结构的TransitionBlock块,最终输出为56
×
56
×
64的特征图。
[0022]作为优选的技术方案,所述S5步骤中,相似度比对网络N
s
的结构为:输入为56
×
56
×
128的堆叠特征图,接着依次为步幅stride为1的64通道输出3
×
3卷积层,步幅stride为2的2
×
2最大池化层,接着为由6个DenseLayer组成的特征通道增长本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像来源异常的Deepfake视频检测方法,其特征在于,包括以下步骤:S1、对待检测视频进行分帧处理,得到各帧的帧图像,分别记为I0、I1、I2、

、I
N
‑1,其中N为视频总帧数;S2、利用人脸关键点检测方法,对每一幅帧图像当中人脸的68个关键点进行检测定位,获取68个关键点中最上方点的纵坐标y
U
,最下方点的纵坐标y
D
,最左方点的横坐标x
L
,以及最右方点的横坐标x
R
,通过上述4个坐标确定一矩形区域,作为视频帧中的人脸矩形区域,依次记为依次记为S3、对于第i幅帧图像中的人脸矩形区域在其上、下、左、右、左上、左下、右上及右下方获取与其形状相同的8个相邻矩形区域,分别记为上方矩形区域下方矩形区域左方矩形区域右方矩形区域左上矩形区域左下矩形区域右上矩形区域以及右下矩形区域S4、将上述9个矩形区域的尺寸都转换为224
×
224像素;S5、构建特征提取网络N
f
和相似度比对网络N
s
;S6、在训练阶段,只选择真实视频作为训练样本,获得其中各帧的9个转换尺寸后的区域,并两两组合得到36对样本,得到总数为视频总帧数乘以36的训练样本集;S7、将一对样本通过共用参数的特征提取网络N
f
提取特征图,将两幅特征图按通道进行堆叠,再输入相似度比对网络N
s
,构成完整网络结构;S8、利用训练样本集,以相似度比对网络N
s
输出0作为目标,对完整网络结构进行参数优化,完成特征提取网络N
f
和相似度比对网络N
s
的训练;S9、在测试阶段,对待检测视频第i帧中的9个区域,将中间的人脸区域与其他8个区域一一结合,构成8对检测样本,并输入训练好的完整网络中,得到8个相似度比对网络N
s
的输出值;S10、计算8个输出值的平均值,作为第i帧中人脸是否为Deepfake伪造的判断标准,当平均值小于阈值T
F
时判定为真实,反之则判定为伪造;S11、计算待检测视频所有帧中被判断存在伪造的帧所占比例,当比例小于阈值T
V
时判定该视频为真实视频,反之则评定为Deepfake伪造视频。2.根据权利要求1所述的一种基于图像来源异常的Deepfake视频检测方法,其特征在于,所述S2步骤中,使用Dlib机器学习库当中的shape predictor工具进行人脸68个关键点的检测定位。3.根据权利要求1所述的一种基于图像来源异常的Deepfake视频检测方法,其特征在于,所述S4步骤中,使用8
×
8像素邻域的Lanczos图像插值算法,进行区域尺寸的转换。4.根据权利要求1所述的一种基于图像来源异常的Deepfake视频检测方法,其特征在于,所述S5步骤中,特征提取网络N
f
...

【专利技术属性】
技术研发人员:王宇飞廖广军
申请(专利权)人:广东警官学院广东省公安司法管理干部学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1