一种基于金字塔辅助学习特征的人脸表情识别方法技术

技术编号:34402603 阅读:20 留言:0更新日期:2022-08-03 21:44
本发明专利技术涉及计算机视觉、深度学习、生物特征识别领域,特别涉及一种基于金字塔辅助学习特征的人脸表情识别方法;所述方法包括将预处理后的人脸图像输入到基础网络分支和金字塔辅助学习分支;基础网络分支采用VGG

【技术实现步骤摘要】
一种基于金字塔辅助学习特征的人脸表情识别方法


[0001]本专利技术涉及计算机视觉、深度学习、生物特征识别领域,特别涉及一种基于金字塔辅助学习特征的人脸表情识别方法。

技术介绍

[0002]近年来,随着信息技术的飞速发展以及计算机的广泛应用,图像中的人脸表情识别引起了越来越多的关注,人脸表情作为人类交流过程中高效传达情感状态和意图的一种非语言手段,在科学研究上的价值也不容忽视。人脸表情识别就是设计一个模型能够自动准确地识别出一副人脸图像或者人脸视频序列中所包含的表情类别,表情分类主要分为:生气、厌恶、恐惧、高兴、悲伤和惊喜。一般地,人脸表情识别的实现可以分为传统机器学习和深度学习两大类。
[0003]传统机器学习方法主要是根据不同的使用场景,人工设计特定的提取算法,通常利用面部器官或标志性点之间的几何关系提取典型特征,所提取的特征很大程度决定最后的表情识别结果。时至今日,研究者们提出很多种编码五官纹理信息或面部浅层特征的表示形式,其中包括基于降维特征的主成分分析法,独立成分分析法,线性判别分析法等。传统的机器学习方法虽然在一定程度上获得较好的成绩,但是在部分条件下泛化能力较差。另一方面,以上方法需要耗费研究者大量的时间和精力,同时还需具备充足的理论知识和实际的科研经验,这些因素阻碍了传统的手工特征的快速发展。
[0004]深度学习通过构建更多层神经网络来实现的,让机器可以自主地从样本中提取信息,并可以快速处理更庞大的数据集。在一定程度上提升了表情识别的准确率,但针对的表情样本相对单一,分析的角度较为片面,人脸表情不止是人脸展现出的情绪,还受到性别、种族、年龄等自身影响以及光照、遮挡等外界影响,需要从多方面进行研究分析。而且如今对表情的研究不再是只研究实验环境下表情样本,其技术应用到真实场景下效果并不显著,仍是一个具有挑战的课题,研究自然环境下的表情识别更符合技术的发展方向。
[0005]对于自然环境下的表情识别任务,模型需要同时聚焦于浅层初级特征与深层高级特征。传统的多尺度特征融合通过拼接的方式将多尺度特征在通道维度上直接堆叠,这种方法在细粒度识别场景下会造成大量信息冗余,并且模型会丢失不同尺度特征对背景信息的抑制能力。

技术实现思路

[0006]为解决上述问题,本专利技术提出了一种基于金字塔辅助学习特征的人脸表情识别方法,构建人脸识别模型,获取待识别人脸图像进行预处理,将预处理后的待识别人脸图像输入训练好的人脸识别模型,人脸识别模型输出识别结果,其中,人脸识别模型包括基础网络分支、金字塔辅助学习分支和特征映射模块,基础网络分支由多个处理块组成,金字塔辅助学习分支由多个金字塔卷积块堆叠而成;
[0007]其中,人脸识别模型的训练过程包括:
[0008]S1.获取样本人脸图像并进行预处理,得到预处理图像;
[0009]S2.将预处理图像同时输入到基础网络分支和金字塔辅助学习分支;
[0010]S3.金字塔辅助学习分支中每个金字塔卷积块输出的初级特征,通过特征映射模块单向传递给基础网络分支;
[0011]S4.将基础网络分支和金字塔辅助学习分支的最终特征进行向量拼接,采用联合损失函数训练,直至收敛。
[0012]进一步的,对待识别人脸图像进行预处理的操作包括人脸检测、人脸对齐、图像归一化和像素归一化。
[0013]进一步的,基础网络分支采用由通道数递增的多个3
×
3卷积层、最大池化层、全连接层和输出层组成的VGG

16网络,将VGG

16网络划分为6个处理块,其中,第一处理块为1至2层,输入尺寸为224
×
224,第二处理块为3至4层,输入尺寸为112
×
112,第三处理块为5至7层,输入尺寸为56
×
56,第四处理块为8至10层,输入尺寸为28
×
28,第五处理块为11至13层,输入尺寸为14
×
14,第六处理块为14至16层,输入尺寸为7
×
7。
[0014]进一步的,金字塔卷积块由一个3
×
3卷积核、一个5
×
5卷积核、一个7
×
7卷积核和一个非线性过滤层组成,每个金字塔卷积块结构相同。
[0015]每个处理块对应一个金字塔卷积块,特征提取时可以将金字塔卷积块输出的初级特征连续地输入到主网络中,有效地提升模型对细粒度特征的表达能力。
[0016]进一步的,特征映射模块包括平均池化层、最大池化层、拼接层和卷积层。
[0017]进一步的,金字塔卷积块的输出信息通过特征映射模块单向传递给基础网络分支的过程为:将金字塔卷积块输出的初级特征作为特征映射模块的输入,将初级特征同时输入平均池化层和最大池化层,在通道维度上对分别进行平均池化和最大池化,得到特征向量和在拼接层针对两个特征向量和合并通道得到同时采用卷积核为3
×
3的卷积层整合信息作用于得到空间特征算子N
M
,将空间特征算子N
M
与对应处理块的输入特征F
I
相乘,得到特征映射模块的输出特征F
O

[0018]特征映射模块是一种特征映射方法,该模块能够将金字塔辅助学习分支中每个金字塔卷积块得到的初级特征转化为单通道权重掩膜覆盖在基础网络分支中,合理地利用了多尺度的特征信息,实现了由支路向主路特征递进的过程,将支路信息作为先验知识传递至主路。
[0019]进一步的,训练过程采用的联合损失函数表示为:
[0020]L=L
C
+L
S

[0021][0022][0023]其中,x
i
表示第y
i
个类别的第i层深度特征,W
j
表示最后一个全连接层中的权重W的第j列值,b
j
表示偏差,m表示每批次训练时的样本数量,n表示每批次训练时的样本类别数,表示第y
i
个类别的深度特征中心,λ为平衡参数,N表示训练样本的总个数,p
j
表示第j个训练样本,θ表示夹角,a是为了增强判决所增加的约束参数,使得cos(aθ1)>cos(θ2)。
[0024]本专利技术的有益效果:
[0025]针对独立结构的卷积神经网络无法提取多粒度特征的问题,本专利技术提出了一种基于金字塔辅助学习分支的人脸表情识别方法。为获取多层次以及多粒度的人脸表情特征,设计两个分支进行不同尺度的特征提取。选取传统VGG

16网络作为基础网络分支的应用基础,将VGG

16网络分割为多个处理块,同时建立由多个金字塔卷积块串联而成的金字塔辅助学习分支,用于辅助基础网络分支的特征提取,使模型聚焦于浅层初级特征与深层高级特征。金字塔辅助学习分支由特征映射模块向基础网络传递特征。特征映射模块将特征图转化为单通道的权重图,将支路本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于金字塔辅助学习特征的人脸表情识别方法,其特征在于,构建人脸识别模型,获取待识别人脸图像进行预处理,将预处理后的待识别人脸图像输入训练好的人脸识别模型,人脸识别模型输出识别结果,其中,人脸识别模型包括基础网络分支、金字塔辅助学习分支和特征映射模块,基础网络分支由多个处理块组成,金字塔辅助学习分支由多个金字塔卷积块堆叠而成;人脸识别模型的训练过程包括:S1.获取样本人脸图像并进行预处理,得到预处理图像;S2.将预处理图像同时输入到基础网络分支和金字塔辅助学习分支;S3.金字塔辅助学习分支中每个金字塔卷积块输出的初级特征,通过特征映射模块单向传递给基础网络分支;S4.将基础网络分支和金字塔辅助学习分支的最终特征进行向量拼接,采用联合损失函数训练,直至收敛。2.根据权利要求1所述的一种基于金字塔辅助学习特征的人脸表情识别方法,其特征在于,对待识别人脸图像进行预处理的操作包括人脸检测、人脸对齐、图像归一化和像素归一化。3.根据权利要求1所述的一种基于金字塔辅助学习特征的人脸表情识别方法,其特征在于,基础网络分支采用由通道数递增的多个3
×
3卷积层、最大池化层、全连接层和输出层组成的VGG

16网络,将VGG

16网络划分为6个处理块,其中,第一处理块为1至2层,输入尺寸为224
×
224,第二处理块为3至4层,输入尺寸为112
×
112,第三处理块为5至7层,输入尺寸为56
×
56,第四处理块为8至10层,输入尺寸为28
×
28,第五处理块为11至13层,输入尺寸为14
×
14,第六处理块为14至16层,输入尺寸为7
×
7。4.根据权利要求1所述的一种基于金字塔辅助学习特征的人脸表情识别方法,其特征在于...

【专利技术属性】
技术研发人员:唐宏向俊玲郑万佳杜萨普陈思思
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1