当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于自注意力机制的俯角人脸图像校正方法及系统技术方案

技术编号:31016944 阅读:21 留言:0更新日期:2021-11-30 02:59
本发明专利技术公开了一种基于自注意力机制的俯角人脸图像校正方法及系统,通过使用基于U

【技术实现步骤摘要】
一种基于自注意力机制的俯角人脸图像校正方法及系统


[0001]本专利技术属于计算机视觉
,涉及一种俯角人脸图像校正方法及系统,尤其涉及一种基于自注意力机制的俯角人脸图像校正方法及系统。

技术介绍

[0002]在现今的社会中,支付、过安检、疑犯跟踪甚至是上班打卡,都非常需要对每一个体进行身份识别与认证,身份识别和认证的手段也很多,例如指纹识别、基因识别等等。因为少接触、不必要用户特殊的配合、远距离就能够采集信息数据等这些特性,人脸识别已经变成了当今社会上应用最广泛,部署得最多的一种身份识别方式。围绕人脸的研究也表现出多种多样,包括通过对人脸进行预测来判断一个人的年龄,通过对人面部进行一些变化,模拟得出此人过去的样貌,以及未来老化的过程,还有通过对人脸进行表情的识别,来准确分析这一类型人的心理状态等。
[0003]目前对于标准人脸正脸识别的技术已经相当成熟,所谓标准人脸,就是把面部重要的区域(眼睛、鼻子、嘴巴等)通过一定的方法转移到特定的区域,并且没有丢失身份信息。在可控受监督的情景中,比如通过人脸验证的场景,都是要求目标有意识的脸部调整到固定的位置,以备准确有效的取得人脸正面图像。随着在标准人脸中识别准确率接近顶峰,学者们的研究重点从可控的人脸图像转变到不受控的自然图像。通常生活中非可控的图像要占更大的比例;光照、表情、姿态等变化带来的整体面部变化对于在标准人脸识别使用的各种方法来说是无法克服的屏障。
[0004]特别是在监控领域,因为监控摄像头通常都会设在高处,这使得监控得到的照片通常是人脸的俯角照片,如果摄像头设置在广阔的空间还好,但是当摄像头在比较有限的空间时,像是在拐角地点,取到人脸正脸图像就比较困难,就算是在广阔的空间中,能取到人脸正脸图像的图片中,人也是在比较远的地方,要提取人脸正脸图像则对摄像设备有很高的要求;这种高性能摄像机所需成本必然很高,且不能适用于所有情况;相对的,如果能从俯角图片中能够还原出人脸的正面图像的话,那么对摄像机的要求就不会那么高,并且几乎能应用于所有情况;因此,多姿态人脸校正就应运而生。
[0005]随着人们对人脸信息依赖程度的加深,对于人脸处理问题的多样化,人脸校正成为了一个脱离人脸识别的另一个领域。因为比起光照、表情、分辨率等问题来说,姿态对于人脸识别的影响是不可忽略的甚至决定性的,人脸的姿态变化,特别是大幅度姿态变化,使得人脸识别变得非常不稳定。就像任何一个三维物体,人脸可以通过三种方向的旋转得到任何角度的图像,这三个角度分别是俯仰角Pitch,偏航角Yaw,翻滚角Roll。目前的研究中,有很多是对于Roll和Yaw方面校正,但是对于Pitch角度的校正寥寥无几,Pitch方面旋转得到的是俯角或者仰角图像,其中俯角图像是经常在监控中能够得到的,应用范围非常广,但是这方面的研究比较少,较为有效的成果也比较少。因此,本次对于人脸俯角校正问题的研究有重大的现实意义。

技术实现思路

[0006]为了解决上述技术问题,本专利技术提供了一种基于自注意力机制的俯角人脸图像校正方法及系统。
[0007]本专利技术的方法所采用的技术方案是:一种基于自注意力机制的俯角人脸图像校正方法,包括以下步骤:
[0008]步骤1:构建基于注意力机制的多输入融合对抗生成网络;
[0009]所述多输入融合对抗生成网络包括多输入融合编码模块、自注意力模块、单层融合模块、多层融合模块、多输入融合解码模块和生成对抗网络鉴别模块;
[0010]所述多输入融合编码模块包括串联设置的四个卷积层,第一层是卷积核大小为7的卷积层,步长为1;第二层为卷积核大小为5的卷积层,步长为2;第三以及第四层是卷积核大小为3的卷积层,步长都为2;所述第一层和第二层卷积层之后均加入有残差块,所述第三层和第四层卷积层之后均依次加入有归一化层,激活层和残差块;
[0011]所述自注意力模块,用于对于所述多输入融合编码模块输出的特征图F,通过大小为1的卷积核构造出三张特征图f、g和h;所述特征图f和特征图g再进行矩阵乘法和softmax操作,得到矩形特征图β
I,j
,之后β
I,j
与特征图h相乘得到权重值o
j
,该权重值再加到特征图F中后输出;
[0012]所述单层融合模块,用于对所述多输入融合编码模块中每一卷积层输出的C个图片的特征经过C个ConvGRU模块来融合多张图片特征;
[0013]所述多层融合模块,用于对所述单层融合模块输出的四个单层融合特征G1、G2、G3、G4分别经过一个反卷积层来使所有的特征处于同一种尺度,并按照G4、G3、G2、G1的顺序分别经过一个ConvGRU模块,最后得到多层融合特征,多层融合特征再经过一层卷积核大小为3,步长为2的卷积层,以及两个全连接层之后得到总体特征;
[0014]所述多输入融合解码模块,由四个反卷积层、两个自注意力层和两个卷积层组成;用于对所述多层融合模块输出的总体特征加入高斯噪声信息进行重构,得到新的特征F1,再对特征F1进行上采样分别构成三种不同尺度大小的特征F2、F3和F4后输入到反卷积层中;进入反卷积操作;所述多输入融合解码模块第一层的反卷积网络的输入是所述多输入融合编码模块第四层卷积层通过残差块之后的输出与F1融合的上采样值;所述多输入融合解码模块第二层反卷积层的输入是前一层反卷积层的输出经过残差块之后的结果、F2和所述多输入融合编码模块第三层卷积层的输出经过残差块之后的融合;所述多输入融合解码模块第三层的反卷积层输入是上一层反卷积层的残差输出、自注意力模块的输出经过残差块之后的结果、F3、所述多输入融合编码模块第二层卷积层的跨层输入、以及输入图片经过resize成一定大小之后这四个值的融合;所述多输入融合解码模块第四层的反卷积层的输入是自注意力模块的输出经过残差块之后的结果、所述多输入融合编码模块第一个卷积层的输出通过参差块之后的结果、以及输入图片的融合输入;所述多输入融合解码模块第四层之后再经过两个卷积层输出人脸校正精细图片;所述多输入融合解码模块的自注意力模块,输入的特征图经过该单元后,每个特征图会有一个权重图,代表特征图中每个部分的关联程度;
[0015]所述生成对抗网络鉴别模块,由七层卷积层组成,其在倒数第二层和倒数第三层加入有残差块;
[0016]步骤2:将需要校正的俯角人脸图像输入所述多输入融合对抗生成网络,获得人脸校正精细图片。
[0017]本专利技术的系统所采用的技术方案是:一种基于自注意力机制的俯角人脸图像校正系统,包括以下模块:
[0018]模块1,用于构建基于注意力机制的多输入融合对抗生成网络;
[0019]所述多输入融合对抗生成网络包括多输入融合编码模块、自注意力模块、单层融合模块、多层融合模块、多输入融合解码模块和生成对抗网络鉴别模块;
[0020]所述多输入融合编码模块包括串联设置的四个卷积层,第一层是卷积核大小为7的卷积层,步长为1;第二层为卷积核大小为5的卷积层,步长为2;第三以及第四层是卷积核本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自注意力机制的俯角人脸图像校正方法,其特征在于,包括以下步骤:步骤1:构建基于注意力机制的多输入融合对抗生成网络;所述多输入融合对抗生成网络包括多输入融合编码模块、自注意力模块、单层融合模块、多层融合模块、多输入融合解码模块和生成对抗网络鉴别模块;所述多输入融合编码模块包括串联设置的四个卷积层,第一层是卷积核大小为7的卷积层,步长为1;第二层为卷积核大小为5的卷积层,步长为2;第三以及第四层是卷积核大小为3的卷积层,步长都为2;所述第一层和第二层卷积层之后均加入有残差块,所述第三层和第四层卷积层之后均依次加入有归一化层,激活层和残差块;所述自注意力模块,用于对于所述多输入融合编码模块输出的特征图F,通过大小为1的卷积核构造出三张特征图f、g和h;所述特征图f和特征图g再进行矩阵乘法和softmax操作,得到矩形特征图β
I,
,之后β
I,
与特征图h相乘得到权重值o
j
,该权重值再加到特征图F中后输出;所述单层融合模块,用于对所述多输入融合编码模块中每一卷积层输出的C个图片的特征经过C个ConvGRU模块来融合多张图片特征;所述多层融合模块,用于对所述单层融合模块输出的四个单层融合特征G1、G2、G3、G4分别经过一个反卷积层来使所有的特征处于同一种尺度,并按照G4、G3、G2、G1的顺序分别经过一个ConvGRU模块,最后得到多层融合特征,多层融合特征再经过一层卷积核大小为3,步长为2的卷积层,以及两个全连接层之后得到总体特征;所述多输入融合解码模块,由四个反卷积层、两个自注意力层和两个卷积层组成;用于对所述多层融合模块输出的总体特征加入高斯噪声信息进行重构,得到新的特征F1,再对特征F1进行上采样分别构成三种不同尺度大小的特征F2、F3和F4后输入到反卷积层中;进入反卷积操作;所述多输入融合解码模块第一层的反卷积网络的输入是所述多输入融合编码模块第四层卷积层通过残差块之后的输出与F1融合的上采样值;所述多输入融合解码模块第二层反卷积层的输入是前一层反卷积层的输出经过残差块之后的结果、F2和所述多输入融合编码模块第三层卷积层的输出经过残差块之后的融合;所述多输入融合解码模块第三层的反卷积层输入是上一层反卷积层的残差输出、自注意力模块的输出经过残差块之后的结果、F3、所述多输入融合编码模块第二层卷积层的跨层输入、以及输入图片经过resize成一定大小之后这四个值的融合;所述多输入融合解码模块第四层的反卷积层的输入是自注意力模块的输出经过残差块之后的结果、所述多输入融合编码模块第一个卷积层的输出通过参差块之后的结果、以及输入图片的融合输入;所述多输入融合解码模块第四层之后再经过两个卷积层输出人脸校正精细图片;所述多输入融合解码模块的自注意力模块,输入的特征图经过该单元后,每个特征图会有一个权重图,代表特征图中每个部分的关联程度;所述生成对抗网络鉴别模块,由七层卷积层组成,其在倒数第二层和倒数第三层加入有残差块;步骤2:将需要校正的俯角人脸图像输入所述多输入融合对抗生成网络,获得人脸校正精细图片。2.根据权利要求1所述的基于自注意力机制的俯角人脸图像校正方法,其特征在于:步骤1中,训练所述多输入融合对抗生成网络,获得训练好的多输入融合对抗生成网络;具体
实现包括以下子步骤:步骤1.1:制作训练集,包括正面图像数据集I
F
和俯角图像数据集I
P
;步骤1.2:将所述俯角图像数据集I
P
中的俯角图片输入所述多输入融合对抗生成网络,将正面图像数据集I
F
中的正面图片作为目标,与多输入融合对抗生成网络的生成器将要生成的生成图片I
G
计算像素损失、身份保留损失、对抗损失、总变分正则化和总损失;步骤1.3:使用优化器Adam,参数设置为默认,对所述多输入融合对抗生成网络进行迭代...

【专利技术属性】
技术研发人员:邹华斯马依力江
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1