一种多模态融合的人脸活体检测方法及系统技术方案

技术编号:36504173 阅读:12 留言:0更新日期:2023-02-01 15:28
本发明专利技术涉及一种多模态融合的人脸活体检测方法及系统,方法包括:同时采集用户的人脸视频数据和多普勒频移信号数据,并对所述人脸视频数据和所述多普勒频移信号数据进行逐帧数据对齐处理,得到对齐后的多模态数据;将所述对齐后的多模态数据输入到多模态人脸活体动作识别模型中,识别所述用户的人脸动作,判断所述用户是否为活体;通过采集视频数据和多普勒频移信号数据,融合这两种不同模态的数据,用于判断人脸是否为活体,可以大大提高人脸活体检测的准确性。脸活体检测的准确性。脸活体检测的准确性。

【技术实现步骤摘要】
一种多模态融合的人脸活体检测方法及系统


[0001]本专利技术涉及人脸识别
,特别是涉及一种多模态融合的人脸活体检测方法及系统。

技术介绍

[0002]近几年,由于深度学习技术的应用和大规模人脸库的建立,使人脸识别算法的准确率超过了人类对人脸识别的准确率。各行各业开始通过人脸识别技术赋能来减少人工参与的环节,提高生产效率。特别是现在智能手机普及之后,原有线下的服务也逐渐转移到线上来,大大提高了业务办理的便捷性。而使用人脸识别技术做用户实名认证时,不但需要判断采集的照片是否为本人,而且还需要判别采集的对象是否为活体。
[0003]目前,由于信息化程度越来越高,个人的照片很容易通过朋友圈等分享应用程序泄露出去,被他人收集用于攻击实名认证系统。在某些特殊的应用场景中,比如养老待遇领取时,攻击者可以利用事先录制的认证视频来攻击实名认证系统。甚至有些攻击者通过面具头套对实名认证系统进行攻击。仅仅根据RGB图像或者视频的活体检测方法的准确率一般无法令人满意,虽然红外双目摄像头和3D结构光摄像头这类硬件可以提高防攻击能力,但是普通手机大多数不具备该类硬件。

技术实现思路

[0004]本专利技术的目的是提供一种多模态融合的人脸活体检测方法及系统,以解决上述现有技术中的问题。
[0005]为实现上述目的,本专利技术提供了如下方案:
[0006]一种多模态融合的人脸活体检测方法,包括:
[0007]同时采集用户的人脸视频数据和多普勒频移信号数据,并对所述人脸视频数据和所述多普勒频移信号数据进行逐帧数据对齐处理,得到对齐后的多模态数据;
[0008]将所述对齐后的多模态数据输入到多模态人脸活体动作识别模型中,识别所述用户的人脸动作,判断所述用户是否为活体。
[0009]优选地,同时采集所述用户的人脸视频数据和多普勒频移信号数据,包括:
[0010]设定采集速度与采集时间,通过摄像装置采集所述人脸视频数据的同时,通过扬声装置发出高频声波,由音频信号接收装置接收反射的声波信号,并对接收的所述声波信号进行过滤,完成所述人脸视频数据和多普勒频移信号数据的采集。
[0011]优选地,对所述人脸视频数据和所述多普勒频移信号数据进行逐帧数据对齐处理,包括:
[0012]抽取第i帧人脸视频数据,作为规范化人脸视频数据的第i

1帧数据;
[0013]取人脸视频数据的第i

1帧与第i帧的时间戳中心点作为区间起始ts;
[0014]取人脸视频数据的第i帧与第i+1帧视频时间戳中心点作为区间结束te;
[0015]抽取多普勒频移信号数据中时间戳区间为[ts,te)的数据,作为规范化多普勒频
移信号数据的第i

1帧数据,进行处理;
[0016]处理完成之后,得到逐帧对齐的规范化人脸视频数据和规范化多普勒频移信号数据;
[0017]其中,从所述人脸视频数据的第二帧开始,一直到所述人脸数据的倒数第二帧为止进行处理。
[0018]优选地,所述多模态人脸活体动作识别模型,包括:
[0019]视频多尺度混合自注意力编码器:用于对规范化人脸视频数据进行编码处理,获得第三视频块特征;
[0020]多普勒频移信号自注意力编码器:用于对规范化多普勒频移信号数据进行编码处理,获得第三音频特征;
[0021]多模态数据融合编码器:用于将所述第三视频块特征和所述第三音频特征进行融合,得到融合多模态数据;
[0022]人脸活体动作分类器:用于基于所述融合多模态数据识别人脸活体动作。
[0023]优选地,对所述规范化人脸视频数据进行编码处理,包括:
[0024]通过所述视频多尺度混合自注意力编码器,先使用三维卷积层进行卷积计算,获得第一视频块特征,将所述第一视频块特征输入到第一多尺度混合的自注意力编码单元中进行处理,得到第二视频块特征,再将所述第二视频块特征输入到第二多尺度混合的自注意力编码单元中进行处理,得到第三视频块特征。
[0025]优选地,所述多尺度混合的自注意力编码单元进行处理的过程,包括:
[0026]将所述第一视频块特征进行层标准化LN运算,得到第一计算结果;
[0027]把所述第一计算结果输入到由3
×7×
7、3
×
视频块特征高/4
×
视频块特征宽/4和3
×
视频块特征高/2
×
视频块特征宽/2三个尺度组成多头自注意力运算层,得到第二计算结果;
[0028]将所述第一计算结果和所述第二计算结果进行连接,输入到由层标准化LN运算和MLP层组成的跳跃连接结构中,得到第三计算结果;
[0029]将所述第三计算结果输入到一个卷积核为3
×3×
3、时域步长为 1空域步长为2的三维卷积层中得到输出的视频块特征。
[0030]优选地,获得所述第三音频特征,包括:
[0031]对所述规范化多普勒频移信号数据中每帧数据按均匀采样的方式进行采样,获得第一音频特征;
[0032]将所述第一音频特征和位置嵌入混合,输入到多头自注意力编码模块之后,得到第二音频特征;
[0033]以数据复制的方式将所述第二音频特征的维度扩展到第三视频块特征的维度一致,得到所述第三音频特征。
[0034]优选地,得到所述融合多模态数据,包括:
[0035]将所述第三视频块特征输入到多模态数据融合编码器的视频数据支路,经层标准化LN运算得到第四视频块特征,得到所述第四视频块特征的多头自注意力的参数矩阵Q
vf
、K
vf
和V
vf

[0036]将所述第三音频特征输入到多模态数据融合编码器的音频数据支路,经层标准化
LN运算得到第四音频特征,得到所述第四音频特征的多头自注意力的参数矩阵Q
sf
、K
sf
和V
sf

[0037]基于所述参数矩阵Q
sf
、K
vf
和V
vf
计算交叉多头自注意力依赖关系,得到第五视频块特征,将第四视频块特征和第五视频块特征进行连接,然后输入到由层标准化LN运算和MLP层组成的跳跃连接结构中,得到第六视频块特征;
[0038]基于所述参数矩阵Q
vf
、K
sf
和V
sf
计算交叉多头自注意力依赖关系,得到第五音频特征,将第四音频特征和第五音频特征进行连接,然后输入到由层标准化LN运算和MLP层组成的跳跃连接结构中,得到第六音频特征;
[0039]将所述第六视频块特征和所述第六音频特征相加,得到所述融合多模态数据。
[0040]优选地,所述多模态人脸活体动作识别模型采用Softmax和交叉熵作为损失函数,并将训练数据分成眨眼、张嘴、转头真实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态融合的人脸活体检测方法,其特征在于,包括:同时采集用户的人脸视频数据和多普勒频移信号数据,并对所述人脸视频数据和所述多普勒频移信号数据进行逐帧数据对齐处理,得到对齐后的多模态数据;将所述对齐后的多模态数据输入到多模态人脸活体动作识别模型中,识别所述用户的人脸动作,判断所述用户是否为活体。2.根据权利要求1所述的多模态融合的人脸活体检测方法,其特征在于,同时采集所述用户的人脸视频数据和多普勒频移信号数据,包括:设定采集速度与采集时间,通过摄像装置采集所述人脸视频数据的同时,通过扬声装置发出高频声波,由音频信号接收装置接收反射的声波信号,并对接收的所述声波信号进行过滤,完成所述人脸视频数据和多普勒频移信号数据的采集。3.根据权利要求1所述的多模态融合的人脸活体检测方法,其特征在于,对所述人脸视频数据和所述多普勒频移信号数据进行逐帧数据对齐处理,包括:抽取第i帧人脸视频数据,作为规范化人脸视频数据的第i

1帧数据;取人脸视频数据的第i

1帧与第i帧的时间戳中心点作为区间起始ts;取人脸视频数据的第i帧与第i+1帧视频时间戳中心点作为区间结束te;抽取多普勒频移信号数据中时间戳区间为[ts,te)的数据,作为规范化多普勒频移信号数据的第i

1帧数据,进行处理;处理完成之后,得到逐帧对齐的规范化人脸视频数据和规范化多普勒频移信号数据;其中,从所述人脸视频数据的第二帧开始,一直到所述人脸数据的倒数第二帧为止进行处理。4.根据权利要求1所述的多模态融合的人脸活体检测方法,其特征在于,所述多模态人脸活体动作识别模型,包括:视频多尺度混合自注意力编码器:用于对规范化人脸视频数据进行编码处理,获得第三视频块特征;多普勒频移信号自注意力编码器:用于对规范化多普勒频移信号数据进行编码处理,获得第三音频特征;多模态数据融合编码器:用于将所述第三视频块特征和所述第三音频特征进行融合,得到融合多模态数据;人脸活体动作分类器:用于基于所述融合多模态数据识别人脸活体动作。5.根据权利要求4所述的多模态融合的人脸活体检测方法,其特征在于,对所述规范化人脸视频数据进行编码处理,包括:通过所述视频多尺度混合自注意力编码器,先使用三维卷积层进行卷积计算,获得第一视频块特征,将所述第一视频块特征输入到第一多尺度混合的自注意力编码单元中进行处理,得到第二视频块特征,再将所述第二视频块特征输入到第二多尺度混合的自注意力编码单元中进行处理,得到第三视频块特征。6.根据权利要求5所述的多模态融合的人脸活体检测方法,其特征在于,所述多尺度混合的自注意力编码单元进行处理的过程,包括:将所述第一视频块特征进行层标准化LN运算,得到第一计算结果;把所述第一计算结果输入到由3
×7×
7、3
×
视频块特征高/4
×
视频块特征宽/4和3
×
视频块特征高/2
×
视频块...

【专利技术属性】
技术研发人员:褚一平黄叶珏郑义陈建勇郁星星张雪妮陈士春唐志学朱华山
申请(专利权)人:杭州海量信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1