一种基于深度自适应度量学习的面部表情识别方法技术

技术编号:37575635 阅读:13 留言:0更新日期:2023-05-15 07:52
本发明专利技术公开一种基于深度自适应度量学习的面部表情识别方法,步骤为:S1:通过摄像装置拍摄人脸图像,并使用人脸检测模型对人脸图像进行人脸检测;S2:构建表情识别主干模型,使用ResNet18作为网络的骨干网,用上下文卷积,并采用协调注意模块对各个阶段获得的空间信息进行调制,经过全局平均池化层,得到嵌入特征向量,获得空间特征图;S3:构建自适应注意模块,利用自适应注意模块对骨干网提取的特征进行编码;S4:利用自适应注意模块生成的权值对中心损耗中每个维度的欧氏距离进行加权,过滤掉不相关的特征,提取与表情识别有关的人脸特征训练表情识别模型;S5:使用表情识别模型进行面部表情检测,输出识别结果。输出识别结果。输出识别结果。

【技术实现步骤摘要】
一种基于深度自适应度量学习的面部表情识别方法


[0001]本专利技术属于人工智能算法和计算机视觉
,尤其涉及一种基于深度自适应度量学习的面部表情识别方法。

技术介绍

[0002]随着人工智能的发展,情感计算已经成为人工智能情感化的关键一步,面部表情显然是传达人类情感最直接的方式。具体来说,这些基本情绪状态主要包括高兴、生气、悲伤、恐惧、厌恶、惊讶和中性。由于面部表情识别(FER)在医疗辅助、驾驶员监控、智能教育、电商等领域的广泛应用,已成为计算机视觉领域一个活跃的研究课题。例如,商家通过记录消费者在浏览商品时的表情预测产品销量,为下一期的产品设计做好准备。
[0003]现有的大多数面部表情识别方法主要针对受控的实验室环境,不能很好地适应复杂的自然环境。在非受控的自然环境下,面部遮挡和姿势变化是影响识别性能的两个关键问题,它们导致了显著的类间相似性和类内差异性,同时产生了类别分布不平衡的特点。在现有方案中,面部表情识别方法主要分为以下几种方式:
[0004](1)使用传统方法进行表情识别:传统的表情识别方法多为先手工设计特征或进行浅层学习,例如局部二值模式(local binary pattern,LBP)、非负矩阵分解(nonnegative matrix factorization,NMF)和稀疏学习等,而后再选择分类器进行表情分类,主要有决策树、支持向量机(SVM)、K最邻近(KNN)和Adaboost等。虽然所需数据量较小,但在实际应用中准确率不高。在传统的表情识别方法中,人工特征提取方法对某些特定数据往往能有较好的效果,但是这种提取方法并不通用,当面对不同的数据集或数据规模较大时,其准确性会下降。它的主要问题在于其针对某种数据库提取的特征和训练的分类器的泛化能力不强,由于自然环境中存在光照、姿势、变形、遮挡等复杂情形,最终输入的测试样本跟训练样本可能存在巨大的差异,这就导致了最终的识别结果不能让人满意。
[0005](2)使用深度学习方法进行识别:近年来,随着人工智能的发展,深度学习技术得到了广泛应用,各个领域的研究也开始转向使用深度学习方法。基于深度学习的人脸识别、目标检测、姿态估计取得了显著的效果,这对表情识别有一定的借鉴意义。将深度学习技术运用到人脸表情识别中,使用卷积神经网络以“端到端”的方式完成特征提取和分类,能够提取更深层的表情特征,从而提高面部表情分类识别性能,使用深度学习方法进行表情识别的精度较高。该方法大多使用经典的分类模型,可以有效的识别面部表情,准确率较高。虽然利用深度学习能自动地获得表征能力和泛化性更强的特征,有效避免了传统方法的不足,但现有模型仍存在两个主要缺陷:1)卷积神经网络以平等方式处理图像中所有元素,对表情信息丰富的面部关键区域关注不足;2)使用经典损失函数训练模型无法控制表情类内差异性和数据分布不平衡带来的影响,不能为表情识别任务提供足够的鉴别信息。
[0006]中国专利文献(CN 113792572 A)公开了一种基于局部表征的表情识别算法,称为表情运动单元卷积神经网络,为提取面部的局部特征,该文首先根据获取的人脸68个特征点将整体面部图像划分成43个子区域,随后选择肌肉运动区域与面部显著器官所覆盖的8
个局部候选区域作为卷积神经网络的输入。为均衡局部候选区域的特征,采用8个并行的特征提取分支,每个分支支配不同维全连接层。分支的输出按照注意力自适应地连接,以突出不同局部候选区域的重要程度,最后经Softmax函数将表情分为中性、愤怒、厌恶、惊讶、高兴、悲伤和恐惧七类。但该专利技术中识别的表情仅为设定的七类,且不能很好地适应复杂的自然环境。
[0007]因此,针对此问题,有必要提出一种基于深度自适应度量学习的面部表情识别方法,从非平衡表情数据中学习更具辨别力的情感表征,能够较好地进行表情特征学习,具有对不同类表情特征进行分类的能力,对未知表情特征也可以较好的进行分类识别,极大改善了识别模型的鲁棒性和泛化性,提高自然环境下表情识别的性能。

技术实现思路

[0008]本专利技术的目的是解决在复杂的自然环境中如何准确地识别面部表情提出了一种基于深度自适应度量学习的面部表情识别方法,能够较好地进行表情特征学习,具有对不同类表情特征进行分类的能力,对未知表情特征也可以较好的进行分类识别,极大改善了识别模型的鲁棒性和泛化性,提高复杂的自然环境下表情识别的性能。
[0009]为了解决上述技术问题,本专利技术采用的技术方案为:该基于深度自适应度量学习的面部表情识别方法,具体包括以下步骤:
[0010]S1:通过摄像装置拍摄人脸图像,并使用人脸检测模型对人脸图像进行人脸检测;
[0011]S2:构建表情识别主干模型,使用轻量级ResNet18作为网络的骨干网,用上下文卷积代替普通卷积,并采用协调注意(coordination attention,CA)模块对各个阶段获得的空间信息进行调制,经过全局平均池化层,得到嵌入特征向量,获得空间特征图;
[0012]S3:构建自适应注意模块,利用自适应注意模块对骨干网提取的特征进行编码,有区分地对待不同人脸特征;
[0013]S4:利用自适应注意模块生成的权值对中心损耗中每个维度的欧氏距离进行加权,过滤掉不相关的特征,提取与表情识别有关的人脸特征训练表情识别模型;
[0014]S5:使用步骤S4中训练得到的表情识别模型进行面部表情检测,输出识别结果。
[0015]采用上述技术方案,首先进行人脸检测,提取到每个单独的人脸图像,然后使用ResNet18作为骨干模型,提取图像特征;然而,该模型的性能很大程度取决于其在训练过程中对数据特征的学习能力,但自然环境下的表情数据往往存在数据分布不平衡,类间特征相似度高和类内特征差异性大的特点,经典深度学习模型对少数样本的学习强度不够,难以捕获细微的表情变化,因此无法学习到具有辨别力的表情特征。
[0016]因此本专利技术提出将ResNet18中的普通卷积替换成上下文卷积,并在每个阶段使用了协调注意力模块进行调制,以此来增强特征表征能力;与ResNet18的大部分不同,用多级上下文卷积来整合面部表情的上下文空间信息,在不增加网络复杂度的情况下提取出更鲁棒的面部特征,但上下文卷积虽然可以提高FER的精度,但也增加了空间信息的冗余,因此,嵌入了协调注意(CA)模块来关注显著特征。为了更好的学习表情相关特征而不受其它因素的干扰,提出自适应注意模块,产生注意力权重加权各类特征与其中心之间的欧氏距离,捕捉对细微的表情变化更敏感的特征,滤除不相关信息,大大增加了模型学习特征的准确性。该方法能够较好地进行表情特征学习,具有对不同类表情特征进行分类的能力,对未知表
情特征也可以较好的进行分类识别,极大改善了识别模型的鲁棒性和泛化性,提高复杂的自然环境下表情识别的性能。
[0017]作为本专利技术的优选技术方案,所述步骤S1的具体步骤为:
[0018]S11:通过摄像装置拍摄人脸图像,获取人脸图像;
[0019]S12:将人脸图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度自适应度量学习的面部表情识别方法,其特征在于,具体包括以下步骤:S1:通过摄像装置拍摄人脸图像,并使用人脸检测模型对人脸图像进行人脸检测;S2:构建表情识别主干模型,使用轻量级ResNet18作为网络的骨干网,用上下文卷积代替普通卷积,并采用协调注意模块对各个阶段获得的空间信息进行调制,经过全局平均池化层,得到嵌入特征向量,获得空间特征图;S3:构建自适应注意模块,利用自适应注意模块对骨干网提取的特征进行编码,有区分地对待不同人脸特征;S4:利用自适应注意模块生成的权值对中心损耗中每个维度的欧氏距离进行加权,过滤掉不相关的特征,提取与表情识别有关的人脸特征训练表情识别模型;S5:使用步骤S4中训练得到的表情识别模型进行面部表情检测,输出识别结果。2.根据权利要求1所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S1的具体步骤为:S11:通过摄像装置拍摄人脸图像,获取人脸图像;S12:将人脸图像中的人脸区域使用矩形框进行框选,去除多余背景,只保留人脸区域;S13:然后对用矩形框框选的区域输入面部表情识别模型。3.根据权利要求1所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S3的具体步骤为:S31构建自适应注意力模块:利用随机注意力构建自适应注意力模块;S32计算动态权重:将来自步骤S2中的获得的空间特征图作为输入,利用自适应注意力模块生成潜在特征表示,并使用多个二进制分类器计算每个人脸特征元素上的权重值。4.根据权利要求3所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S31利用随机注意力构建自适应模块的具体步骤为:S311对输入特征进行分组:对于输入的空间特征图X∈R
C
×
H
×
W
,其中C、H、W分别表示通道数、空间高度和宽度,随机注意力首先将X沿通道维数划分为G组,即X=[X
l


,X
G
],X
k
∈R
C/G
×
H
×
W
,其中每个子特征X
k
在训练过程中捕捉到特定的语义响应;然后,通过注意模块为每个子特征X
k
生成相应的重要系数;S312捕获通道间的依赖关系:首先嵌入全局信息,使用全局平均池化生成通道级统计信息,即c∈R
C/2G
×1×1;再通过门控机制与sigmoid激活函数,得到通道注意的最终输出;S313获取空间位置信息:采用群范数生成空间统计量,生成通道分支的紧凑特征。5.根据权利要求4所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,所述步骤S311中通过注意模块为每个子特征X
k
生成相应的重要系数具体步骤为:在每个注意单元开始时,X
k
的输入沿着通道维度被分成两个分支即X
k1
,X
k2
∈R
C/2G
×
H
×
W
;其中一个分支X
k1
来产生一个通道注意力来利用通道间的相互关系,而另一分支X
k2
用于利用空间位置间的关系特性生成一个空间注意力图。6.根据权利要求5所述的基于深度自适应度量学习的面部表情识别方法,其特征在于,在其中一个分支X
k1
上,通过使用全局平均池化来嵌入全局信息,生成所述步骤S312中的通道级统计信息c∈R
C/2G
×1×1,通过空间维数H
×
W收缩X
k1
来计算通道级统计信息c,公式为:
其中,X
k1
表示该分支上的特征,F
qp
表示全局平均池化操作;通过门控机制与sigmoid激活函数得到通道注意的最终输出表示为:X

k1
=σ(F
c
(s))
·
X
k1
=σ(W1+b1)
·
X
k1
ꢀꢀꢀꢀ
(2);其中,...

【专利技术属性】
技术研发人员:朱春华李雪李培韩志孝杨慧丽范亚君石震陶华伟周飞梁家瑞刘浩
申请(专利权)人:河南工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1