一种基于局部增强transformer的假视频检测方法技术

技术编号:31813314 阅读:13 留言:0更新日期:2022-01-08 11:16
一种基于局部增强transformer的假视频检测方法,通过对一个视频随机帧的脸图像利用局部增强的打乱全卷积transformer将图像块内全局特征与图像块间全局特征结合更细粒度地提高检测的准确性。为进一步提高模型泛化性,利用FF++与DFDC数据集训练模型。本发明专利技术方法适用于改进生成算法生成的deepfake检测,检测到的deepfake的准确度明显优于其他方法。deepfake的准确度明显优于其他方法。deepfake的准确度明显优于其他方法。

【技术实现步骤摘要】
一种基于局部增强transformer的假视频检测方法


[0001]本专利技术涉及Deepfake检测方法
,具体涉及一种基于局部增强transformer的假视频检测方法。

技术介绍

[0002]Deepfake是利用基于深度学习的技术Autoencoder、GAN等深度学习算法将源视频中的人脸换成目标视频人脸。到目前为止,已经有大量deepfake视频在网上流传,对个人、组织、正负带来负面影响。目前常用的Deepfake检测方法没有明确考虑图像通道间的全局联系及图像块内的全局联系和图像块间的全局联系,同时模型参数量较大,计算复杂度较高,计算效率不高,泛化性不强。

技术实现思路

[0003]本专利技术为了克服以上技术的不足,提供了一种首先对一个视频帧的脸图像块块内提取全局特征,然后对每帧脸图像块间捕获图像块间的全局特征,继而图像块内与块间交替更细粒度的捕获全局特征,将捕获到的全局特征利用全局多头通道注意力进行后处理进行检测Deepfake视频的方法。
[0004]本专利技术克服其技术问题所采用的技术方案是:
[0005]一种基于局部增强transformer的假视频检测方法,包括如下步骤:
[0006]a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机的视频帧中的人脸图像;
[0007]b)将人脸图像输入特征提取模块得到低级纹理特征图;
[0008]c)建立全局精细特征提取模块,所述全局精细特征提取模块依次由局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer构成,每个局部增强transformer由L个transformer block组成,所述transformer block依次由图像块内特征提取模块及图像块间特征提取模块组成,所述图像块内特征提取模块依次由BatchNorm层、WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成,所述图像块间特征提取模块依次由BatchNorm层、shuffle

WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成;
[0009]d)将低级纹理特征图输入第一个局部增强transformer中得到图像块内与图像块间的精细全局特征;
[0010]e)将图像块内与图像块间的精细全局特征输入卷积层中得到浅层特征图;
[0011]f)将浅层特征图输入第二个局部增强transformer中,得到图像块内与图像块间的浅层特征图;
[0012]g)将步骤f)得到的图像块内与图像块间的浅层特征图输入卷积层中得到中级语义特征图,将中级语义特征图,输入第三个局部增强transformer中,得到图像块内与图像
块间的中级语义精细全局特征图;
[0013]h)将步骤g)得到的图像块内与图像块间的中级语义精细全局特征图输入输入卷积层中得到特征图,将特征图输入第四个局部增强transformer中,得到图像块内与图像块间的高级语义精细全局特征图;
[0014]i)将图像块内与图像块间的高级语义精细全局特征图输入全局通道注意力模块进行特征后处理,得到精炼的人脸全局特征,将精炼的人脸全局特征输入分类器经过softmax进行二分类真假检测。
[0015]进一步的,步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下。
[0016]进一步的,步骤a)中得到的连续帧的t张人脸图像的宽高分别调整为224、224,利用albumentations算法对人脸图像进行数据增强,利用均值为[0.4718,0.3467,0.3154],方差为[0.1656,0.1432,0.1364]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量x
i
∈R
b
×
c
×
h
×
w
,R为向量空间,其中人脸图像标签为[b,0/1],x
i
为第i个人脸图像批次,i∈{1,...,K
×
t/b},b为每批次人脸图像的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假人脸图像,1表示真人脸图像。
[0017]进一步的,步骤b)包括如下步骤:
[0018]b

1)建立由2个连续的块组成特征提取模块,第一个块、第二个块均由三个连续的深度可分离的卷积层和一个最大池化层构成,每个深度可分离的卷积层由深度卷积层后连接批归一化层和逐点卷积层组成,深度卷积层均设置有3
×
3的kernel,每个深度卷积层的stride和padding为1,每个最大池化层均有一个2
×
2像素的窗口,每个最大池化层的步长等于2,第一个块的第一个深度可分离的卷积层输出为32个通道,第二个块的第三个深度可分离的卷积层输出64个通道;
[0019]b

2)将x
i
∈R
b
×
c
×
h
×
w
输入特征提取模块,输出维度为[b,64,56,56]的特征图x
f
=F(x
i
,θ),x
f
∈R
b
×
c
×
h
×
w
,θ为模型参数。
[0020]进一步的,步骤d)包括如下步骤:
[0021]d

1)通过公式z0=x
f
+E
pos
计算得到带有位置的三维特征图z0,E
pos
为三维特征图的位置embedding,E
pos
∈R
b
×
c
×
h
×
w
,z0∈R
b
×
c
×
h
×
w

[0022]d

2)将带有位置的三维特征图z0输入第一个局部增强transformer的第l

1层的图像块内特征提取模块和图像块间特征提取模块,得到图像块内与块间的浅层精细全局特征z
l
‑1,l∈{1,...,L};
[0023]d

3)将图像块内与块间的浅层精细全局特征z
l
‑1进行批归一化后送入第l层的图像块内特征提取模块的WM本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于局部增强transformer的假视频检测方法,其特征在于,包括如下步骤:a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机的视频帧中的人脸图像;b)将人脸图像输入特征提取模块得到低级纹理特征图;c)建立全局精细特征提取模块,所述全局精细特征提取模块依次由局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer、池化层、局部增强transformer构成,每个局部增强transformer由L个transformer block组成,所述transformer block依次由图像块内特征提取模块及图像块间特征提取模块组成,所述图像块内特征提取模块依次由BatchNorm层、WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成,所述图像块间特征提取模块依次由BatchNorm层、shuffle

WMSA block、残差层、NWC层、残差层、BatchNorm层、卷积MLP block以及残差层组成;d)将低级纹理特征图输入第一个局部增强transformer中得到图像块内与图像块间的精细全局特征;e)将图像块内与图像块间的精细全局特征输入卷积层中得到浅层特征图;f)将浅层特征图输入第二个局部增强transformer中,得到图像块内与图像块间的浅层特征图;g)将步骤f)得到的图像块内与图像块间的浅层特征图输入卷积层中得到中级语义特征图,将中级语义特征图,输入第三个局部增强transformer中,得到图像块内与图像块间的中级语义精细全局特征图;h)将步骤g)得到的图像块内与图像块间的中级语义精细全局特征图输入输入卷积层中得到特征图,将特征图输入第四个局部增强transformer中,得到图像块内与图像块间的高级语义精细全局特征图;i)将图像块内与图像块间的高级语义精细全局特征图输入全局通道注意力模块进行特征后处理,得到精炼的人脸全局特征,将精炼的人脸全局特征输入分类器经过softmax进行二分类真假检测。2.根据权利要求1所述的基于局部增强transformer的假视频检测方法,其特征在于:步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下。3.根据权利要求1所述的基于局部增强transformer的假视频检测方法,其特征在于:步骤a)中得到的连续帧的t张人脸图像的宽高分别调整为224、224,利用albumentations算法对人脸图像进行数据增强,利用均值为[0.4718,0.3467,0.3154],方差为[0.1656,0.1432,0.1364]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量x
i
∈R
b
×
c
×
h
×
w
,R为向量空间,其中人脸图像标签为[b,0/1],x
i
为第i个人脸图像批次,i∈{1,...,K
×
t/b},b为每批次人脸图像的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假人脸图像,1表示真人脸图像。4.根据权利要求1所述的基于局部增强transformer的假视频检测方法,其特征在于,步骤b)包括如下步骤:
b

1)建立由2个连续的块组成特征提取模块,第一个块、第二个块均由三个连续的深度可分离的卷积层和一个最大池化层构成,每个深度可分离的卷积层由深度卷积层后连接批归一化层和逐点卷积层组成,深度卷积层均设置有3
×
3的kernel,每个深度卷积层的stride和padding为1,每个最大池化层均有一个2
×
2像素的窗口,每个最大池化层的步长等于2,第一个块的第一个深度可分离的卷积层输出为32个通道,第二个块的第三个深度可分离的卷积层输出64个通道;b

2)将x
i
∈R
b
×
c
×
h
×
w
输入特征提取模块,输出维度为[b,64,56,56]的特征图x
f
=F(x
i
,θ),x
f
∈R
b
×
c
×
h
×
w
,θ为模型参数。5.根据权利要求4所述的基于局部增强transformer的假视频检测方法,其特征在于,步骤d)包括如下步骤:d

1)通过公式z0=x
f
+E
pos
计算得到带有位置的三维特征图z0,E
pos
为三维特征图的位置embedding,E
pos
∈R
b
×
c
×
h
×
w
,z0∈R
b
×
c
×
h
×
w
;d

2)将带有位置的三维特征图z0输入第一个局部增强transformer的第l

1层的图像块内特征提取模块和图像块间特征提取模块,得到图像块内与块间的浅层精细全局特征z
l
‑1,l∈{1,...,L};d

3)将图像块内与块间的浅层精细全局特征z
l
‑1进行批归一化后送入第l层的图像块内特征提取模块的WMSA block中通过一个卷积核大小为1,步长为1,padding为0的卷积层卷积后得到QKV∈R
b
×
3c
×
h
×
w
,利用torch库里的rearrange方法处理QKV∈R
b
×
3c
×
h
×
w
后得到Q∈R
b
×
c
×
h
×
w
、K∈R
b
×
c
×
h
×
w
、V∈R
b
×
c
×
h
×
w
,Q为图像块内特征图的查询向量,K为图像块内特征图的键向量,V为图像块内特征图的值向量,Q∈R
b
×
A
×
j
×
(ww
×
hh)
×
r
,K∈R
b
×
A
×
j
×
(ww
×
hh)
×
r
,V∈R
b
×
A
×
j
×
(ww
×
hh)
×
r
,ww为图像块宽,hh为图像块高,图像块的个数为A,A=(h/hh)*(w/ww),j为QKV的头数,每个头的维度为r,r=c/j,通过公式计算得到图像块内全局特征图z
l
,z
l
∈R
b
×
A
×
j
×
(ww
×
hh)
×
r
,E为深度可分离的卷积层参数,J为可学习的注意力权重位置重要性矩阵,J∈R
b
×
A
×
j
×
(ww
×
hh)
×
(ww
×
hh
),T为转置;d

4)将图像块内全局特征图z
l
∈R
b
×
A
×
j
×
(ww
×
hh)
×
r
利用torch库里的rearrange方法拼接回原始图像大小z
l
∈R
b
×
c
×
h
×
w
,通过公式z

l
=z
l
+z
l
‑1计算得到图像块内全局特征图z

l
,将图像块内全局特征图z

l
进行批归一化后输入第l层的卷积核大小为ww,步长为1,填充为ww//2的NWC层中得到邻近图像块特征增强的特征图NWC(LN(z
l

)),通过公式z

l
=NWC(LN(z

l
))+z

l
计算得到邻近图像块特征增强的全局特征图z

l
,将邻近图像块特征增强的全局特征图z

l
进行批归一化后输入第l层的由两个连续的卷积核大小为1,步长为1,填充为0的卷积层构成的卷积MLP block中得到三维空间特征图MLP(LN(z

l
)),通过公式s
l
=MLP(LN(z

l
))+z

l
计算得到三维局部增强的图像块内全局特征图s
l
;d

5)将三维局部增强的图像块内全局特征图s
l
进行批归一化后输入第l层的图像块间特征提取模块的sh...

【专利技术属性】
技术研发人员:王英龙张亚宁舒明雷陈达刘丽
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1