基于时空分解编码器的多模态人脸呈现攻击检测方法技术

技术编号:39033330 阅读:8 留言:0更新日期:2023-10-10 11:46
本发明专利技术公开了一种基于时空分解编码器的多模态人脸呈现攻击检测方法,包括:1、获取多模态视频数据集中的样本并生成特征表示;2、构建特征转换器以生成空间嵌入表示,构建时空分解编码器以提取单模态特征,构建融合编码器以融合多模态特征,输入分类器中得到最终分类结果;3、构建集中对比损失和二元交叉熵损失,利用优化器进行训练并更新模型参数;4、输入待测视频对模型进行测试,确保模型能对真实人脸和呈现攻击人脸进行有效的区分。本发明专利技术能提高人脸呈现攻击检测的准确性和鲁棒性,从而确保人脸识别系统的安全性。脸识别系统的安全性。脸识别系统的安全性。

【技术实现步骤摘要】
基于时空分解编码器的多模态人脸呈现攻击检测方法


[0001]本专利技术属于计算机视觉
,具体涉及一种基于时空分解编码器的多模态人脸呈现攻击检测方法。

技术介绍

[0002]人脸识别技术已经获得了广泛研究和应用,而针对人脸识别系统的攻击方式也变得层出不穷,为了确保人脸识别系统的安全性,开发有效的人脸呈现攻击检测技术对于提高人脸识别技术的整体质量至关重要;
[0003]面对人脸识别系统的防伪需求,研究者们提出过多种人脸呈现攻击检测算法,例如基于纹理的方法、基于运动的方法、基于欺骗痕迹分离的方法;
[0004]目前大多研究仅针对单一模态,采用基于卷积神经网络的方法;然而,这些方法普遍只在2D攻击的情况下表现良好,面对复杂的3D攻击或局部攻击等复杂情况下性能严重降低,即使在2D攻击的情况下也无法对未见过的攻击和环境进行有效的泛化。

技术实现思路

[0005]本专利技术为了克服现有技术的不足之处,提出了一种基于时空分解编码器的多模态人脸呈现攻击检测方法,以期能提高人脸呈现攻击检测的准确性和鲁棒性,从而确保人脸识别系统的安全性。
[0006]本专利技术为解决技术问题采用如下技术方案:
[0007]本专利技术一种基于时空分解编码器的多模态人脸呈现攻击检测方法的特点在于,包括以下步骤:
[0008]步骤1、获取多模态视频数据集中的视频样本并生成特征表示;
[0009]步骤1.1、记多模态视频数据集中任意一个视频样本为E={V
m
|m=1,2,3},其中,V
m
表示第m种模态的视频,当m=1时,V1代表可见光视频,当m=2时,V2代表深度视频,当m=3时,V3代表红外视频;令视频样本E的真实类别记为当时,表示视频样本E为真实人脸视频,当时,表示视频样本E为呈现攻击人脸视频;
[0010]步骤1.2、将V
m
拆分为U段视频,即其中,代表第m种模态视频V
m
的第u段视频;
[0011]由第m种模态视频的第u段视频生成特征表示其中,表示特征表示中的第k个特征矩阵,H为特征矩阵的行数,W为特征矩阵的列数;K为特征矩阵的数量;
[0012]步骤2、构建时空分解编码器网络,包括:特征转换器、3
×
U个空间编码器、3个时间编码器、1个融合编码器和分类器;
[0013]步骤2.1、所述特征转换器对特征表示进行处理,得到对应的空间嵌入表示
[0014]步骤2.2、第m种模态视频对应的第u个空间编码器对进行处理,得到第u个空间编码器输出的空间编码序列从而得到U个空间编码器输出的U个空间编码序列组成第m种模态对应的时间向量序列L1表示空间编码器的层数;
[0015]步骤2.3、所述时间编码器对Zt
m
进行处理,得到所述时间编码器输出的第m种模态的时间编码序列m=1,2,3;L2表示时间编码器的层数;
[0016]步骤2.4、所述融合编码器对进行处理,得到所述融合编码器输出的融合编码序列其中,当m=1,2,3时,代表第m种模态对应的融合编码器输出的融合编码序列;当m=0时,代表融合瓶颈对应的融合编码序列;并将中对应融合分类向量clsf的融合分类编码向量记为L3表示融合编码器的层数;
[0017]步骤2.5、所述分类器利用全连接层对clso进行处理,从而利用式(9)计算视频样本E对应正分类和负分类的概率P:
[0018]P=sigmoid(clso
×
ew+b)
ꢀꢀ
(9)
[0019]式(9)中,为分类权重矩阵,b为维度为2的偏置向量;
[0020]所述分类器利用式(10)得到视频样本E最终的分类结果G:
[0021][0022]式(10)中,pf1表示P中对应正分类的概率,G=1表示正分类结果,即真实人脸类别;G=0表示负分类结果,即呈现攻击人脸类别;σ表示阈值,且σ∈(0,1);
[0023]步骤3、构建空间分解编码器网络的损失函数L
total

[0024]步骤3.1、利用式(11)构建二元交叉熵损失L
BCE

[0025]L
BCE


(G
×
log(pf1)+(1

G)
×
log(1

pf1))
ꢀꢀ
(11)
[0026]步骤3.2、构建集中对比损失L
CCL

[0027]由式(12)和式(13)构建第a个编码器对应的集中对比损失为
[0028][0029][0030]式(12)中,a=1,2,...,B,B表示总的编码器数量,且B=3
×
U+3+1;β
a
表示第a个编码器的系数,且β
a
∈(0,1),C
a
表示当前次迭代的中心向量,并在第一次迭代时初始化中心向量为零向量;D
a
为E在第a个编码器输出的分类编码向量clsa
a
和当前次迭代的中心向量C
a
的欧氏距离,并由式(13)计算得到;bd
a
表示第a个边界半径;
[0031]利用式(14)对C
a
进行更新,得到下一次迭代的中心向量C

a

[0032][0033]式(14)中,α表示系数,且α∈(0,1);代表当前次迭代中真实类别为1的第v个视频样本在第a个编码器输出的分类向量,V代表当前次迭代中真实类别为1的视频样本的总数;
[0034]步骤3.3、利用式(15)得到总的损失函数L
total

[0035][0036]式(15)中,γ,ε表示两个系数,且γ,ε∈(0,1);
[0037]步骤3.4、使用优化器对时空分解编码器网络进行迭代训练,并计算总的损失函数L
total
以更新网络参数,直至损失函数L
total
收敛为止,从而得到最优参数的时空分解编码器模型,用于对多模态人脸视频进行检测,对真实人脸和呈现攻击人脸进行区分。
[0038]本专利技术所述的一种基于时空分解编码器的多模态人脸呈现攻击检测方法的特点在于,所述步骤2.1包括以下步骤:
[0039]步骤2.1.1、第k个特征矩阵中H
×
W个特征值按顺序表示为H
×
W个特征点,即W个特征点,即其中,表示第k个特征矩阵中的第i个特征点;并记为的转置矩阵上对应的第i个特征点;
[0040]令第k个特征矩阵对应的第k个权重矩阵记为记为中的第i个权重并进行随机初始化;
[0041]利用式(1)得到第k个特征矩阵对应的第k个归一化相对注意力矩阵中第i个注意力值从而得到K个归一化相对注意力矩阵为
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于时空分解编码器的多模态人脸呈现攻击检测方法,其特征在于,包括以下步骤:步骤1、获取多模态视频数据集中的视频样本并生成特征表示;步骤1.1、记多模态视频数据集中任意一个视频样本为E={V
m
|m=1,2,3},其中,V
m
表示第m种模态的视频,当m=1时,V1代表可见光视频,当m=2时,V2代表深度视频,当m=3时,V3代表红外视频;令视频样本E的真实类别记为当时,表示视频样本E为真实人脸视频,当时,表示视频样本E为呈现攻击人脸视频;步骤1.2、将V
m
拆分为U段视频,即其中,代表第m种模态视频V
m
的第u段视频;由第m种模态视频的第u段视频生成特征表示其中,表示特征表示中的第k个特征矩阵,H为特征矩阵的行数,W为特征矩阵的列数;K为特征矩阵的数量;步骤2、构建时空分解编码器网络,包括:特征转换器、3
×
U个空间编码器、3个时间编码器、1个融合编码器和分类器;步骤2.1、所述特征转换器对特征表示进行处理,得到对应的空间嵌入表示步骤2.2、第m种模态视频对应的第u个空间编码器对进行处理,得到第u个空间编码器输出的空间编码序列从而得到U个空间编码器输出的U个空间编码序列组成第m种模态对应的时间向量序列L1表示空间编码器的层数;步骤2.3、所述时间编码器对Zt
m
进行处理,得到所述时间编码器输出的第m种模态的时间编码序列m=1,2,3;L2表示时间编码器的层数;步骤2.4、所述融合编码器对进行处理,得到所述融合编码器输出的融合编码序列其中,当m=1,2,3时,代表第m种模态对应的融合编码器输出的融合编码序列;当m=0时,代表融合瓶颈对应的融合编码序列;并将中对应融合分类向量clsf的融合分类编码向量记为L3表示融合编码器的层数;步骤2.5、所述分类器利用全连接层对clso进行处理,从而利用式(9)计算视频样本E对应正分类和负分类的概率P:P=sigmoid(clso
×
ew+b)
ꢀꢀꢀꢀꢀꢀ
(9)式(9)中,为分类权重矩阵,b为维度为2的偏置向量;所述分类器利用式(10)得到视频样本E最终的分类结果G:式(10)中,pf1表示P中对应正分类的概率,G=1表示正分类结果,即真实人脸类别;G=0表示负分类结果,即呈现攻击人脸类别;σ表示阈值,且σ∈(0,1);
步骤3、构建空间分解编码器网络的损失函数L
total
:步骤3.1、利用式(11)构建二元交叉熵损失L
BCE
:L
BCE


(G
×
log(pf1)+(1

G)
×
log(1

pf1)) (11)步骤3.2、构建集中对比损失L
CCL
:由式(12)和式(13)构建第a个编码器对应的集中对比损失为由式(12)和式(13)构建第a个编码器对应的集中对比损失为由式(12)和式(13)构建第a个编码器对应的集中对比损失为式(12)中,a=1,2,...,A,A表示总的编码器数量,且A=3
×
U+3+1;β
a
表示第a个编码器的系数,且β
a
∈(0,1),C
a
表示当前次迭代的中心向量,并在第一次迭代时初始化中心向量为零向量;D
a
为E在第a个编码器输出的分类编码向量clsa
a
和当前次迭代的中心向量C
a
的欧氏距离,并由式(13)计算得到;bd
a
表示第a个边界半径;利用式(14)对C
a
进行更新,得到下一次迭代的中心向量C

a
:式(14)中,α表示系数,且α∈(0,1);代表当前次迭代中真实类别为1的第v个视频样本在第a个编码器输出的分类向量,V代表当前次迭代中真实类别为1的视频样本的总数;步骤3.3、利用式(15)得到总的损失函数L
total
:式(15)中,γ,ε表示两个系数,且γ,ε∈(0,1);步骤3.4、使用优化器对时空分解编码器网络进行迭代训练,并计算总的损失函数L
total
以更新网络参数,直至损失函数L
total
收敛为止,从而得到最优参数的时空分解编码器模型,用于对多模态人脸视频进行检测,对真实人脸和呈现攻击人脸进行区分。2.根据权利要求1所述的一种基于时空分解编码器的多模态人脸呈现攻击检测方法,其特征在于,所述步骤2.1包括以下步骤:步骤2.1.1、第k个特征矩阵中H
×
W个特征值按顺序表示为H
×
W个特征点,即W个特征点,即其中,表示第k个特征矩阵中的第i个特征点;并记为的转置矩阵上对应的第i个特征点;令第k个特征矩阵对应的第k个权重矩阵记为记为中的第i个权重并进行随机初始化;利用式(1)得到第k个特征矩阵对应的第k个归一化相对注意力矩阵中第i个注意力值从而得到K个归一化相对注意力矩阵为
步骤2.1.2、使用1个尺寸为K
×1×
1的卷积核对进行逐点卷积计算后,得到对应的聚合矩阵步骤2.1.3、所述特征转换器再使用n
d
个尺寸为1
×
d
×
d的卷积核,对进行...

【专利技术属性】
技术研发人员:甘子昀任钰悦赵博皓蒋荣强杨守海孙锐
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1