一种基于知识蒸馏与transformer的假视频检测方法技术

技术编号:35275640 阅读:20 留言:0更新日期:2022-10-19 10:55
一种基于知识蒸馏与transformer的假视频检测方法,通过对一个视频帧的脸图像提取多样的局部特征与全局特征,并利用多头注意力缩放技术提取多样的全局特征,并利用空间注意力缩放技术进行多样的全局特征精炼,最后送入分类器进行检测Deepfake视频的方法。由于空间注意力缩放技术的引入,检测到的deepfake的准确度明显优于其他方法。明显优于其他方法。明显优于其他方法。

【技术实现步骤摘要】
一种基于知识蒸馏与transformer的假视频检测方法


[0001]本专利技术涉及Deepfake检测
,具体涉及一种知识蒸馏与transformer的假视频检测方法。

技术介绍

[0002]Deepfake是利用基于深度学习的技术Autoencoder、GAN等深度学习算法将源视频中的人脸换成目标视频人脸。目前常用的Deepfake检测方法很少考虑利用多样的局部特征与全局特征结合来检测假视频,因此检测精度与泛化性不高。

技术实现思路

[0003]本专利技术为了克服以上技术的不足,提供了一种利用知识蒸馏技术进一步增强模型精确性的基于知识蒸馏与transformer的假视频检测方法。
[0004]本专利技术克服其技术问题所采用的技术方案是:
[0005]一种基于知识蒸馏与transformer的假视频检测方法,包括如下步骤:
[0006]a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机视频帧中的人脸图像;
[0007]b)将人脸图像利用VGG19网络提取局部特征,将提取的局部特征输入局部多头注意力模块中,输出得到带有局部注意力特征图;
[0008]c)将带有局部注意力特征图输入到Enhanced

ViT模块中进行多样的精炼全局空间特征提取;
[0009]d)将精炼全局空间特征输入分类器中,经过softmax进行二分类真假检测,完成模型的建立;
[0010]e)利用损失函数迭代优化步骤d)中的模型,得到最优模型。
[0011]进一步的,步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下,在该视频文件夹下得到随机的t张人脸图像。
[0012]进一步的,步骤a)中得到的t张人脸图像的宽高分别调整为244、244,利用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量x
i
∈R
b
×
c
×
h
×
w
,R为向量空间,其中视频标签为[b,0/1],x
i
为第i个视频批次,i∈{1,...,K
×
t/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。
[0013]进一步的,步骤b)包括如下步骤:
[0014]b

1)将张量x
i
∈R
b
×
c
×
h
×
w
输入到VGG19网络中,得到局部特征图x
f
∈R
b
×
512
×7×7;
[0015]b

2)将局部特征图x
f
∈R
b
×
512
×7×7输入到局部多头注意力模块中,将局部特征图x
f
∈R
b
×
512
×7×7分别输入到LS

CNN模型中m个LANet block中分别输出得到注意力图
为第i个LANet block输出的注意力图,i∈{1,...,m},将注意力图利用torch库里的cat算法并联得到特征图x
a
∈R
b
×
m
×7×7;
[0016]b

3)对特征图x
a
∈R
b
×
m
×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图x
b
∈R
b
×1×7×7;
[0017]b

4)将特征图x
b
∈R
b
×1×7×7与局部特征图x
f
∈R
b
×
512
×7×7逐元素点乘得到带有局部注意力特征图x
l
∈R
b
×
512
×7×7。
[0018]进一步的,步骤c)包括如下步骤:
[0019]c

1)利用torch库里的rearrange算法将带有局部注意力特征图x
l
∈R
b
×
512
×7×7沿着通道拉平为2D特征x
p
∈R
b
×
49
×
512

[0020]c

2)通过公式计算得到带有位置信息的二维图像块序列z0,式中为2D特征x
p
∈R
b
×
49
×
512
中第i个图像特征块,i∈{1,...,N},N为2D特征x
p
∈R
b
×
49
×
512
中图像特征块的总数,E为每一个图像特征块的位置embedding,E∈R
512
×
D
,D为不变的隐向量,E
pos
为位置embedding,E
pos
∈R
N
×
D

[0021]c

3)设置由L个连续的transformer block组成的Enhanced

ViT模型,每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成;
[0022]c

4)将带有位置信息的二维图像块序列z0输入第1个transformer block的第一LayerNorm层中进行归一化处理,得到归一化后的二维图像块序列z0,将归一化后的二维图像块序列z0输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算,得到全局特征图MSA(LN(z0)),将全局特征图MSA(LN(z0))输入到第1个transformer block的多头注意力缩放层中进行多样的多头自注意力计算,得到多样全局特征图MAS(MSA(LN(z0))),将多样全局特征图MAS(MSA(LN(z0)))输入到第1个transformer block的空间注意力缩放层,输出得到多样的精炼全局本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识蒸馏与transformer的假视频检测方法,其特征在于,包括如下步骤:a)利用读视频算法对K个视频中的每个视频提取随机的视频帧,利用脸识别算法提取每个视频的随机视频帧中的人脸图像;b)将人脸图像利用VGG19网络提取局部特征,将提取的局部特征输入局部多头注意力模块中,输出得到带有局部注意力特征图;c)将带有局部注意力特征图输入到Enhanced

ViT模块中进行多样的精炼全局空间特征提取;d)将精炼全局空间特征输入分类器中,经过softmax进行二分类真假检测,完成模型的建立;e)利用损失函数迭代优化步骤d)中的模型,得到最优模型。2.根据权利要求1所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于:步骤a)中利用python中的读视频算法VideoReader类对视频提取,得到随机的t个视频帧,对提取的视频帧利用人脸识别算法dlib库中的get_frontal_face_detector函数提取脸图像,将得到的脸放入对应真假类别文件夹下,在该视频文件夹下得到随机的t张人脸图像。3.根据权利要求2所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于:步骤a)中得到的t张人脸图像的宽高分别调整为244、244,利用均值为[0.485,0.456,0.406],方差为[0.229,0.224,0.225]对人脸图像进行归一化,将归一化后的连续帧的t张人脸图像封装为[b,c,h,w]的张量x
i
∈R
b
×
c
×
h
×
w
,R为向量空间,其中视频标签为[b,0/1],x
i
为第i个视频批次,i∈{1,...,K
×
t/b},b为每批次视频的个数,c为每张人脸图像通道数,h为每张人脸图像的高,w为每张人脸图像的宽,0表示假视频,1表示真视频。4.根据权利要求3所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤b)包括如下步骤:b

1)将张量x
i
∈R
b
×
c
×
h
×
w
输入到VGG19网络中,得到局部特征图x
f
∈R
b
×
512
×7×7;b

2)将局部特征图x
f
∈R
b
×
512
×7×7输入到局部多头注意力模块中,将局部特征图x
f
∈R
b
×
512
×7×7分别输入到LS

CNN模型中m个LANet block中分别输出得到注意力图block中分别输出得到注意力图为第i个LANet block输出的注意力图,i∈{1,...,m},将注意力图利用torch库里的cat算法并联得到特征图x
a
∈R
b
×
m
×7×7;b

3)对特征图x
a
∈R
b
×
m
×7×7利用torch库里的maximum算法逐元素取得最大值得到特征图x
b
∈R
b
×1×7×7;b

4)将特征图x
b
∈R
b
×1×7×7与局部特征图x
f
∈R
b
×
512
×7×7逐元素点乘得到带有局部注意力特征图x
l
∈R
b
×
512
×7×7。5.根据权利要求4所述的基于知识蒸馏与transformer的假视频检测方法,其特征在于,步骤c)包括如下步骤:c

1)利用torch库里的rearrange算法将带有局部注意力特征图x
l
∈R
b
×
512
×7×7沿着通道拉平为2D特征x
p
∈R
b
×
49
×
512

c

2)通过公式计算得到带有位置信息的二维图像块序列z0,式中为2D特征x
p
∈R
b
×
49
×
512
中第i个图像特征块,i∈{1,...,N},N为2D特征x
p
∈R
b
×
49
×
512
中图像特征块的总数,E为每一个图像特征块的位置embedding,E∈R
512
×
D
,D为不变的隐向量,E
pos
为位置embedding,E
pos
∈R
N
×
D
;c

3)设置由L个连续的transformer block组成的Enhanced

ViT模型,每个transformer block依次由第一LayerNorm层、多头自注意力block、多头注意力缩放层、空间注意力缩放层、第一残差层、第二LayerNorm层、MLP block、第二残差层构成;c

4)将带有位置信息的二维图像块序列z0输入第1个transformer block的第一LayerNorm层中进行归一化处理,得到归一化后的二维图像块序列z0,将归一化后的二维图像块序列z0输入到第1个transformer block的多头自注意力block中进行全局多头注意力计算,得到全局特征图MSA(LN(z0)),将全局特征图MSA(LN(z0))输入到第1个transformer block的多头注意力缩放层中进行多样的多头自注意力计算,得到多样全局特征图MAS(MSA(LN(z0))),将多样全局特征图MAS(MSA(LN(z0)))输入到第1个transformer block的空间注意力缩放层,输出得到多样的精炼全局特征图SAS(MAS(MSA(LN(z0)))),将多样的精炼全局特征图SAS(MAS(MSA(LN(z0))))与带有位置信息的二维图像块序列z0输入到第一残差层中,通过公式z
′0=SAS(MAS(MSA(LN(z0))))+z0计算得到二维全局空间特征z
′0,将二维全局空间特征z
′0输入到第二LayerNorm层中进行归一化处理,得到归一化后的二维全局空间特征z
′0,将归一化后的二维全局空间特征z
′0输入到MLP block中,输出得到二维空间特征图MLP(LN(z
′0)),将二维空间特征图MLP(LN(z
′0))与二维全局空间特征z
′0输入到第二残差层中,通过公式z1=MLP(LN(z
′0))+z
′0计算得到第1个transformer block输出的多样的精炼全局空间特征z1;c

5)将全局空间特征z1替代步骤c

4)中...

【专利技术属性】
技术研发人员:王英龙张亚宁舒明雷刘瑞霞周书旺
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1