基于人脸混合增强策略的遮挡人脸表情识别模型制造技术

技术编号:38130625 阅读:11 留言:0更新日期:2023-07-08 09:38
本发明专利技术公开了计算机视觉技术领域的基于人脸混合增强策略的遮挡人脸表情识别模型,包括:遮挡人脸表情识别模块;遮挡人脸表情识别模块包括让混合区域能够具有较强表情相关语义信息的局部特征增强模块、对人脸特征非遮挡局部特征学习并过滤最具判别力局部特征的高级/中级学习表示模块、包含损失函数的计算与预测结果输出的预测模块,采用人脸混合增强策略FERMix和学习中级特征表示来提升人脸表情识别的遮挡鲁棒性,将主图像和混合图像同时输入网络中进行训练,增强模型对全局信息和局部信息的表征能力,从而提升模型的性能和对遮挡的鲁棒性,首次在人脸表情识别任务中使用中级特征表示层,在野外人脸表情数据集准确率分别为89.80%、89.58%和65.54%。89.58%和65.54%。89.58%和65.54%。

【技术实现步骤摘要】
基于人脸混合增强策略的遮挡人脸表情识别模型


[0001]本专利技术涉及计算机视觉
,具体为基于人脸混合增强策略的遮挡人脸表情识别模型。

技术介绍

[0002]人脸表情是传达人类情感和意图最普遍和最重要的信号之一,因此能够正确地识别人脸表情对理解用户情感和意图有着十分重要的意义。人脸表情识别作为计算机视觉和情感分析领域的一项基本任务,被广泛用于在线教育、医疗保健、家庭陪护、商品推荐、视频推荐、在线监控等应用中,用于获取用户喜好和心理状态,以实现“人性化”的人机交互。
[0003]在深度学习十分流行的今天,基于大量数据的端到端的人脸表情识别技术已经愈发成熟,但是依然存在着很多问题需要解决和思考。在现实世界中,机器所获取的人脸图像不可能总是完整的正脸图像,而往往是存在着脸部遮挡,遮挡物可能是手机、眼镜、手、头发等等。这些情况会造成人脸关键信息的缺失,从而导致表情识别系统性能急剧下降。因此当今很多表情识别的研究致力于提升表情识别系统对人脸遮挡的鲁棒性。对于此问题有以下几种解决思路。
[0004]1)扩充数据集。增加更多的遮挡人脸图像在数据集中。这是最直接和有效的一种方式,但是难点就在于数据集收集耗时耗力,至今也没有直接可用于训练的大型遮挡的人脸表情数据集。
[0005]2)人脸补全。这种思路是采用生成的方法,补全被遮挡部分的人脸,再将补全的人脸送入表情识别网络中进行分类。但是此类方法也依赖于生成模型能学到良好的表情特征,训练难度较高,加上现有研究基本是用人为模拟的遮挡物来代替真实遮挡情况,因此这些方法很难泛化到现实场景中。
[0006]3)增强人脸局部区域表征信息的能力。心理学研究表明,人类可以有效地利用局部区域和整体面部感知不完整面部传递的语义。当面部某些部分被遮挡住了,人类可以根据其他局部非遮挡区域来判断表情。因此很多方法希望增强人脸局部区域表示表情特征的能力,这样即使人脸受到遮挡,也能利用局部非遮挡区域来识别出表情。当今此种解决思路取得了更好的效果。
[0007]对于如何增强局部区域表征信息的能力,现有研究工作证明了在模型输入中提供人脸局部信息可以增强模型对局部特征的学习,并且让全局信息与局部信息共同训练能够有效提升模型的泛化性和对遮挡的鲁棒性。但是上述工作使得模型在一次训练和推理中包含大量数据输入,在训练和推理过程中是比较低效的,而且局部区域的选取依赖于人脸关键点检测,然而在遮挡情况下,人脸关键点检测并不准确,因此该方法在实际应用中可能失效。
[0008]为了在增强模型遮挡鲁棒性的同时,还能拥有较好的训练和推理效率,本申请设计了一种简单高效,不需要任何额外信息的面向遮挡人脸表情识别的模型——FER(Facial Expression Recognition)MixNet。
[0009]为此,本申请提出基于人脸混合增强策略的遮挡人脸表情识别模型。

技术实现思路

[0010]本专利技术的目的在于提供基于人脸混合增强策略的遮挡人脸表情识别模型,以解决上述
技术介绍
中提出的问题。
[0011]为实现上述目的,本专利技术提供如下技术方案:基于人脸混合增强策略的遮挡人脸表情识别模型,包括:
[0012]遮挡人脸表情识别模块;
[0013]遮挡人脸表情识别模块包括让混合区域能够具有较强表情相关语义信息的局部特征增强模块、对人脸特征非遮挡局部特征学习并过滤最具判别力局部特征的高级/中级学习表示模块、包含损失函数的计算与预测结果输出的预测模块;
[0014]进一步的,所述局部特征增强模块包括针对脸部上下遮挡的水平等分混合模块、针对脸部左右遮挡的垂直等分混合模块、针对单只眼镜遮挡的角落模块。
[0015]进一步的,所述高级/中级学习表示模块包括深度卷积网络模块,深度卷积网络模块中加入中级特征表示层,中级特征表示层中包含
×
卷积与最大池化层。
[0016]进一步的,基于人脸混合增强策略的遮挡人脸表情识别模型的识别方法,包括如下步骤:
[0017]S1:人脸混合增强:
[0018]将两张人脸图像混合,混合时尽可能保证眼部与嘴部区域的完整,经过人脸对齐后的人脸表情数据集具有很强的特殊性,利用这些特殊性质,方便的使用人脸混合增强策略(FERMix),而不需要额外信息;
[0019]水平等分混合:人脸图像中人的双眼一般位于上半部分,嘴巴一般位于下半部分,因此直接将图像按水平方向对半切分即可划分出双眼区域和嘴巴区域,该混合方式可以让模型更加关注人脸的上半部分或是下半部分区域,增加模型对上下遮挡的鲁棒性;
[0020]垂直等分混合:直接将图像按垂直方向对半切分即可划分出左右人脸区域,该混合方式可以让模型更加关注人脸的左半部分或右半部分,以增加模型对左右遮挡的鲁棒性;
[0021]角落混合:对应了左眼和右眼区域,计算混合交叉熵损失时,由于该区域只占原图大小的1/4,因此该区域被赋予的权重也较小,不会对模型造成太大负面影响;
[0022]S2:主图像随机混洗生成成对图像:
[0023]在模型(FERMixNet)中输入包含主图像与FERMix混合图像两部分,主图像选用一个正常训练批次中的样本,在模型训练的一个批次中,通过随机打乱该批次的图像来获取它们的成对图像,每一次迭代,模型会按照概率选取一种FERMix的组合来生成混合图像;
[0024]S3:特征表示:
[0025]学习高级表示的模型结构与标准的ResNet18一样,包含conv1、conv2_x、conv3_x、conv4_x、conv5_x、平均池化层和全连接层,主要用于学习输入样本的全局特征。为了增强模型对局部非遮挡特征的学习,本申请在标准的ResNet18中增加了中级特征表示层。本申请在conv4_x后增加了中级分类分支,该分支结构包括、1
×
1卷积,ReLU激活函数和最大池化层;
[0026]原始图像经过了conv1

conv4_x之后,可以得到一张C
×
H
×
W的特征图,在1
×
H
×
W大小的空间维度上,每一个点都对应着原图相应区域的感受野,这一块感受野反映了原图的一小块局部区域。为了更精确地定位最具判别力的局部区域,1
×
1卷积的步长设置为1,一个学习好的1
×
1卷积能够对重要的局部区域有较高的响应度,因此再通过全局最大池化(GMP)可以找到判别能力最强的局部区域。中级分类部分可以有效地学习输入样本的语义信息度最高的局部特征,当人脸受遮挡时,人脸非遮挡区域的局部信息能够在很大程度上帮助本申请分辨出表情,因此学习中级特征表示可以很好地补充表情信息,增强模型的遮挡鲁棒性,将人脸划分为多个区域,然后采用注意力的方法去定位未被遮挡的局部区域,本申请使用的中级特征表示层设计更加简单灵活,并且不需要任何额外信息;
[0027]S4:训练损失和模型决策:
[0028本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于人脸混合增强策略的遮挡人脸表情识别模型,其特征在于,包括:遮挡人脸表情识别模块;遮挡人脸表情识别模块包括让混合区域能够具有较强表情相关语义信息的局部特征增强模块(1)、对人脸特征非遮挡局部特征学习并过滤最具判别力局部特征的高级/中级学习表示模块(2)、包含损失函数的计算与预测结果输出的预测模块(3)。2.根据权利要求1所述的基于人脸混合增强策略的遮挡人脸表情识别模型,其特征在于:所述局部特征增强模块(1)包括针对脸部上下遮挡的水平等分混合模块(4)、针对脸部左右遮挡的垂直等分混合模块(5)、针对单只眼镜遮挡的角落模块(6)。3.根据权利要求2所述的基于人脸混合增强策略的遮挡人脸表情识别模型,其特征在于:所述高级/中级学习表示模块(2)包括深度卷积网络模块,深度卷积网络模块中加入中级特征表示层,中级特征表示层中包含1
×
1卷积与最大池化层。4.根据权利要求3所述的基于人脸混合增强策略的遮挡人脸表情识别模型的识别方法,包括如下步骤:S1:人脸混合增强:将两张人脸图像混合,混合时尽可能保证眼部与嘴部区域的完整,经过人脸对齐后的人脸表情数据集具有很强的特殊性,利用这些特殊性质,方便的使用人脸混合增强策略(FERMix),而不需要额外信息;水平等分混合:人脸图像中人的双眼一般位于上半部分,嘴巴一般位于下半部分,因此直接将图像按水平方向对半切分即可划分出双眼区域和嘴巴区域,该混合方式可以让模型更加关注人脸的上半部分或是下半部分区域,增加模型对上下遮挡的鲁棒性;垂直等分混合:直接将图像按垂直方向对半切分即可划分出左右人脸区域,该混合方式可以让模型更加关注人脸的左半部分或右半部分,以增加模型对左右遮挡的鲁棒性;角落混合:对应了左眼和右眼区域,计算混合交叉熵损失时,由于该区域只占原图大小的1/4,因此该区域被赋予的权重也较小,不会对模型造成太大负面影响;S2:主图像随机混洗生成成对图像:在模型(FERMixNet)中输入包含主图像与FERMix混合图像两部分,主图像选用一个正常训练批次中的样本,在模型训练的一个批次中,通过随机打乱该批次的图像来获取它们的成对图像,每一次迭代,模型会按照概率选取一种FERMix的组合来生成混合图像;S3:特征表示:学习高级表示的模型结构与标准的ResNet18一样,包含conv1、conv2_x、conv3_x、conv4_x、conv5_x、平均池化层和全连接层,主要用于学习输入样本的全局特征,为了增强模型对局部非遮挡特征的学习,本申请在标准的ResNet18中增加了中级特征表示层,本申请在conv4_x后增加了中级分类分支,该分支结构包括、1
×
1卷积,ReLU激活函数和最大池化层;原始图像经过了conv1

conv4_x之后,可以得到一张C
×
H
×
W的特征图,在1
×
H
×
W大小的空间维度上,每一个点都对应着原图相应区域的感受野,这一块感受野反映了原图的一小块局部区域,为了更精确地定位最具判别力的局部区域,1
×
1卷积的步长设置为1,一个学习好的1
×
1卷积能够对重要的局部区域有较高的响应度,因此再通过全局最大池化(GMP)可以找到判别能力最强的局部区域,中级分类部分可以有效地学习输入样本的语义
信息度最高的局部特征,当人脸受遮挡时,人脸非遮挡区域的局部信息能够在很大程度上帮助本申请分辨出表情,因此学习中级特征表示可以很好地补充表情信息,增强模型的遮挡鲁棒性,将人脸划分为多个区域,然后采用注意力的方法去定位未被遮挡的局部区域,本申请使用的中级特征表示层设计更加简单灵活,并且不需要任何额外信息;S4:训练损失和模型决策:主图像和混合图像在高级分类和中级分类中都是计算的标准的交叉熵损失;模型训练时,高级表征和中级表征部分通过公式计算总损失,进而更新参数,模型推理时,本申请直接做决策融合,即将高级分类和中级分类经过全连接层得到的输出单元进行相加,作为模型最终的决策结构...

【专利技术属性】
技术研发人员:彭俊杰李爱国李松
申请(专利权)人:徐州达希能源技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1