基于人脸混合增强策略的遮挡人脸表情识别模型制造技术

技术编号：38130625 阅读：11 留言：0更新日期：2023-07-08 09:38

本发明专利技术公开了计算机视觉技术领域的基于人脸混合增强策略的遮挡人脸表情识别模型，包括：遮挡人脸表情识别模块；遮挡人脸表情识别模块包括让混合区域能够具有较强表情相关语义信息的局部特征增强模块、对人脸特征非遮挡局部特征学习并过滤最具判别力局部特征的高级/中级学习表示模块、包含损失函数的计算与预测结果输出的预测模块，采用人脸混合增强策略FERMix和学习中级特征表示来提升人脸表情识别的遮挡鲁棒性，将主图像和混合图像同时输入网络中进行训练，增强模型对全局信息和局部信息的表征能力，从而提升模型的性能和对遮挡的鲁棒性，首次在人脸表情识别任务中使用中级特征表示层，在野外人脸表情数据集准确率分别为89.80％、89.58％和65.54％。89.58％和65.54％。89.58％和65.54％。

全部详细技术资料下载

【技术实现步骤摘要】
基于人脸混合增强策略的遮挡人脸表情识别模型

[0001]本专利技术涉及计算机视觉
，具体为基于人脸混合增强策略的遮挡人脸表情识别模型。

技术介绍

[0002]人脸表情是传达人类情感和意图最普遍和最重要的信号之一，因此能够正确地识别人脸表情对理解用户情感和意图有着十分重要的意义。人脸表情识别作为计算机视觉和情感分析领域的一项基本任务，被广泛用于在线教育、医疗保健、家庭陪护、商品推荐、视频推荐、在线监控等应用中，用于获取用户喜好和心理状态，以实现“人性化”的人机交互。
[0003]在深度学习十分流行的今天，基于大量数据的端到端的人脸表情识别技术已经愈发成熟，但是依然存在着很多问题需要解决和思考。在现实世界中，机器所获取的人脸图像不可能总是完整的正脸图像，而往往是存在着脸部遮挡，遮挡物可能是手机、眼镜、手、头发等等。这些情况会造成人脸关键信息的缺失，从而导致表情识别系统性能急剧下降。因此当今很多表情识别的研究致力于提升表情识别系统对人脸遮挡的鲁棒性。对于此问题有以下几种解决思路。
[0004]1)扩充数据集。增加更多的遮挡人脸图像在数据集中。这是最直接和有效的一种方式，但是难点就在于数据集收集耗时耗力，至今也没有直接可用于训练的大型遮挡的人脸表情数据集。
[0005]2)人脸补全。这种思路是采用生成的方法，补全被遮挡部分的人脸，再将补全的人脸送入表情识别网络中进行分类。但是此类方法也依赖于生成模型能学到良好的表情特征，训练难度较高，加上现有研究基本是用人为模拟的遮挡物来代替真实遮挡情况，因此这...

【技术保护点】

【技术特征摘要】
1.基于人脸混合增强策略的遮挡人脸表情识别模型，其特征在于，包括：遮挡人脸表情识别模块；遮挡人脸表情识别模块包括让混合区域能够具有较强表情相关语义信息的局部特征增强模块(1)、对人脸特征非遮挡局部特征学习并过滤最具判别力局部特征的高级/中级学习表示模块(2)、包含损失函数的计算与预测结果输出的预测模块(3)。2.根据权利要求1所述的基于人脸混合增强策略的遮挡人脸表情识别模型，其特征在于：所述局部特征增强模块(1)包括针对脸部上下遮挡的水平等分混合模块(4)、针对脸部左右遮挡的垂直等分混合模块(5)、针对单只眼镜遮挡的角落模块(6)。3.根据权利要求2所述的基于人脸混合增强策略的遮挡人脸表情识别模型，其特征在于：所述高级/中级学习表示模块(2)包括深度卷积网络模块，深度卷积网络模块中加入中级特征表示层，中级特征表示层中包含1
×
1卷积与最大池化层。4.根据权利要求3所述的基于人脸混合增强策略的遮挡人脸表情识别模型的识别方法，包括如下步骤：S1：人脸混合增强：将两张人脸图像混合，混合时尽可能保证眼部与嘴部区域的完整，经过人脸对齐后的人脸表情数据集具有很强的特殊性，利用这些特殊性质，方便的使用人脸混合增强策略(FERMix),而不需要额外信息；水平等分混合：人脸图像中人的双眼一般位于上半部分，嘴巴一般位于下半部分，因此直接将图像按水平方向对半切分即可划分出双眼区域和嘴巴区域，该混合方式可以让模型更加关注人脸的上半部分或是下半部分区域，增加模型对上下遮挡的鲁棒性；垂直等分混合：直接将图像按垂直方向对半切分即可划分出左右人脸区域，该混合方式可以让模型更加关注人脸的左半部分或右半部分，以增加模型对左右遮挡的鲁棒性；角落混合：对应了左眼和右眼区域，计算混合交叉熵损失时，由于该区域只占原图大小的1/4，因此该区域被赋予的权重也较小，不会对模型造成太大负面影响；S2：主图像随机混洗生成成对图像：在模型(FERMixNet)中输入包含主图像与FERMix混合图像两部分，主图像选用一个正常训练批次中的样本，在模型训练的一个批次中，通过随机打乱该批次的图像来获取它们的成对图像，每一次迭代，模型会按照概率选取一种FERMix的组合来生成混合图像；S3：特征表示：学习高级表示的模型结构与标准的ResNet18一样，包含conv1、conv2_x、conv3_x、conv4_x、conv5_x、平均池化层和全连接层，主要用于学习输入样本的全局特征，为了增强模型对局部非遮挡特征的学习，本申请在标准的ResNet18中增加了中级特征表示层，本申请在conv4_x后增加了中级分类分支，该分支结构包括、1
×
1卷积，ReLU激活函数和最大池化层；原始图像经过了conv1
‑
conv4_x之后，可以得到一张C
×
H
×
W的特征图，在1
×
H
×
W大小的空间维度上，每一个点都对应着原图相应区域的感受野，这一块感受野反映了原图的一小块局部区域，为了更精确地定位最具判别力的局部区域，1
×
1卷积的步长设置为1，一个学习好的1
×
1卷积能够对重要的局部区域有较高的响应度，因此再通过全局最大池化(GMP)可以找到判别能力最强的局部区域，中级分类部分可以有效地学习输入样本的语义
信息度最高的局部特征，当人脸受遮挡时，人脸非遮挡区域的局部信息能够在很大程度上帮助本申请分辨出表情，因此学习中级特征表示可以很好地补充表情信息，增强模型的遮挡鲁棒性，将人脸划分为多个区域，然后采用注意力的方法去定位未被遮挡的局部区域，本申请使用的中级特征表示层设计更加简单灵活，并且不需要任何额外信息；S4：训练损失和模型决策：主图像和混合图像在高级分类和中级分类中都是计算的标准的交叉熵损失；模型训练时，高级表征和中级表征部分通过公式计算总损失，进而更新参数，模型推理时，本申请直接做决策融合，即将高级分类和中级分类经过全连接层得到的输出单元进行相加，作为模型最终的决策结构...

【专利技术属性】
技术研发人员：彭俊杰，李爱国，李松，
申请(专利权)人：徐州达希能源技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人