一种基于注意力机制和混合网络的群体图像情绪识别方法技术

技术编号:21892803 阅读:16 留言:0更新日期:2019-08-17 14:51
本发明专利技术涉及一种基于注意力机制和混合网络的群体图像情绪识别方法,包括以下步骤:步骤1:使用卷积网络模型以检测和提取图像中人的面部信息并输入面部CNN,通过注意力机制结合图像中的面部特征获取面部特征的单个表示;步骤2:使用姿势估计方法获取图像中人体骨架信息并输入骨架CNN;步骤3:利用数据库训练各分支网络模型;步骤4:融合各个模型的预测结果,执行网络搜索以学习每个模型的权重;步骤5:通过权重得出混合网络针对图像的最终识别结果。与现有技术相比,本发明专利技术具有降低由个别面部表情混淆最终分类的概率,充分结合了图像中场景、人脸、骨架的特征信息,降低由不同特征混淆最终分类的概率,更高的识别准确率等优点。

A Mood Recognition Method for Group Images Based on Attention Mechanism and Hybrid Network

【技术实现步骤摘要】
一种基于注意力机制和混合网络的群体图像情绪识别方法
本专利技术涉及群体情绪识别
,尤其是涉及一种基于注意力机制和混合网络的群体图像情绪识别方法。
技术介绍
智能情感分析研究已经走过了漫长的道路,但传统上一直关注场景中的单一个体,对群体情感识别的研究相对匮乏,然而,随着城市人口的迅速增长,研究对象由个体逐渐转变为群体。群体可分为大小群体,大群体如街道的人流,此时人与人之间并没有情感的交流和统一的情绪,本专利技术是对多位个体间有情感交流的小群体进行情绪识别。并且在拥挤的环境中,由于遮挡和分辨率的问题,很难根据个人的表情去推断群体的情感。因此,基于小群体情感识别显得尤为重要,它不仅可以应用于监控视频的异常检测,预测小群体情绪变化,保证社会安全。还可以应用于智能城市的规划,以给人们提供更加人性化的服务。如何高效地识别群体情感是目前急需解决的问题。群体情绪识别最早由Dhall等人进行,该工作介绍了AFEW数据库和群体情绪识别框架,包括使用面部动作单元提取面部特征,在对齐的面上提取低级特征,使用GIST和CENTRIST描述符提取场景特征并使用多核学习融合。然而,他们提出的方法依赖于LBQ和PHOG特征和CENTRIST,其捕获面部表示和场景表示是有限的。以往的情绪识别广泛使用人体面部特征,但根据实验心理学和情感计算的研究结果,身体姿势特征也传达重要的情感信息。人脸标志可直接作为位置向量,或者通过计算它们之间的几何距离来识别情绪,身体姿势特征主要被编码为图像中身体区域的手工特征。为了保留人脸标志和身体特征关键点的相对位置,可使用骨架特征表示,对应于人脸、身体和手的关键点集合。由于面部遮挡、光照变化、头部姿势变化,各种室内和室外环境不同以及由于相机距离不同而导致低分辨率的面部图像,因此群体情绪识别问题具有挑战性。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于注意力机制和混合网络的群体图像情绪识别方法。本专利技术的目的可以通过以下技术方案来实现:一种基于注意力机制和混合网络的群体图像情绪识别方法,包括以下步骤:步骤1:使用卷积网络模型以检测和提取图像中人的面部信息并输入面部CNN,通过注意力机制结合图像中的面部特征获取面部特征的单个表示;步骤2:使用姿势估计方法获取图像中人体骨架信息并输入骨架CNN;步骤3:利用数据库训练各分支网络模型;步骤4:融合各个模型的预测结果,执行网络搜索以学习每个模型的权重;步骤5:通过权重得出混合网络针对图像的最终识别结果。优选地,所述的步骤1包括以下分步骤:步骤11:使用多任务级联卷积网络模型获取图像中人的面部信息;步骤12:将面部信息输入面部CNN;步骤13:引入损失函数减轻过拟合;步骤14:通过注意力机制找到图像中每个面部的概率权重并获得单个面部特征向量。优选地,所述步骤12中的面部CNN采用ResNet18和SphereFace模型,其输入为96×112RGB对齐的人脸图像。优选地,所述步骤13中的损失函数为L-Softmax损失函数。优选地,所述步骤14中的单个面部特征向量,其描述公式为:式中,Pd为单个面部特征向量,δi为权重,pi为面部特征向量。优选地,所述步骤3中的各分支网络模型还包括场景CNN,所述场景CNN的网络模型架构包括VGG19、ResNet101、SE-net154和DenseNet-161,所述场景CNN中还引入压缩和奖惩网络模块,其描述公式为:s=σ(W2δ(W1z))式中,zc为压缩通道的第c个元素,Fsq(.)为挤压函数,W和H为输入图像的宽度和高度,uc(i,j)为第i个通道第j个元素的输入,σ为sigmoid函数,δ为ReLU函数,z为压缩通道的所有压缩量,W1和W2表示升维层和降维层,s为奖惩量。优选地,所述步骤2中的骨架CNN的网络模型架构包括ResNet101和SE-net154,所述步骤2中姿势估计方法采用OpenPose姿势估计方法。与现有技术相比,本专利技术具有以下优点:(1)本专利技术方法步骤1以及自身的分步骤11~分步骤14能给予各个面部表情不同的权重,降低由个别面部表情混淆最终分类的概率。(2)本专利技术中步骤1~4充分结合了图像中场景、人脸、骨架的特征信息,降低由不同特征混淆最终分类的概率。(3)本专利技术中的场景、人脸、骨架各自的模型构成不同,场景CNN包括VGG19、ResNet101、SE-net154和DenseNet-161且引入了压缩和奖惩网络模块,骨架CNN包括ResNet101和SE-net154,面部CNN中从MTCNN模型获得的面部因图像差异而具有不同的取向和比例,其架构使用ResNet18和SphereFace模型,具有很强的学习和泛化能力,具有更高的识别准确率。附图说明图1为本专利技术识别方法对应的整体流程框架示意图;图2为本专利技术合并面部特征向量的流程示意图,其中,图2-a为利用平均值的合并面部特征向量的流程示意图,图2-b为利用注意力机制的合并面部特征向量的流程示意图;图3为本专利技术中的压缩和奖惩网络模块的架构示意图;图4为本专利技术中的利用OpenPose的骨架提取图,其中,图4-a为图例1的利用OpenPose的骨架提取图,图4-b为图例2的利用OpenPose的骨架提取图;图5为本专利技术中的各分支最优模型识别结果混淆矩阵示意图,其中,图5-a为SphereFaceAttention的识别结果混淆矩阵示意图,图5-b为DenseNet-161的识别结果混淆矩阵示意图,图5-c为SE-net154的识别结果混淆矩阵示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术的一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。实施例1.群体情绪识别架构主要包括三种类型CNN,即基于面部的CNN,基于场景的CNN和基于骨架的CNN。三种类型的CNN都训练了多个模型,然后对选取的模型执行决策融合以学习最佳组合,如图1所示。2.面部CNN2.1面部CNN预处理使用多任务级联卷积网络模型(MTCNN)来检测图像中人的面部,MTCNN是基于卷积神经网络的人脸检测方法,具有性能高和速度快的优点。它包含级联CNN,可以快速准确地检测和对齐面部关节(五个面部标志检测,即两只眼睛、两个嘴角和鼻子)。它根据输入图像构建图像金字塔,然后将它们提供给以下三级级联框架,候选区域在第一阶段产生并在后两个阶段细化,面部标志位置在第三阶段产生。从MTCNN模型获得的面部因图像差异而具有不同的取向和比例,为了学习更简单的模型,将每个面部标准化为正面视图并且统一面部图像的分辨率。可使用五个检测到的面部标志点来进行相似变换,使得各脸部的眼睛处于同一水平并将图像尺寸重新缩放到96×112,获得所有基于人脸表情面部CNN所需要的对齐人脸。面部情感CNN使用ResNet18和SphereFace模型,模型的输入为96×112RGB对齐的人脸图像。为了减轻过度拟合并增强泛化,使用人脸识别数据集对其进行预训练。2.2L-Softmax损失函数Large-MarginSoftmax本文档来自技高网
...

【技术保护点】
1.一种基于注意力机制和混合网络的群体图像情绪识别方法,其特征在于,包括以下步骤:步骤1:使用卷积网络模型以检测和提取图像中人的面部信息并输入面部CNN,通过注意力机制结合图像中的面部特征获取面部特征的单个表示;步骤2:使用姿势估计方法获取图像中人体骨架信息并输入骨架CNN;步骤3:利用数据库训练各分支网络模型;步骤4:融合各个模型的预测结果,执行网络搜索以学习每个模型的权重;步骤5:通过权重得出混合网络针对图像的最终识别结果。

【技术特征摘要】
1.一种基于注意力机制和混合网络的群体图像情绪识别方法,其特征在于,包括以下步骤:步骤1:使用卷积网络模型以检测和提取图像中人的面部信息并输入面部CNN,通过注意力机制结合图像中的面部特征获取面部特征的单个表示;步骤2:使用姿势估计方法获取图像中人体骨架信息并输入骨架CNN;步骤3:利用数据库训练各分支网络模型;步骤4:融合各个模型的预测结果,执行网络搜索以学习每个模型的权重;步骤5:通过权重得出混合网络针对图像的最终识别结果。2.根据权利要求1所述的一种基于注意力机制和混合网络的群体图像情绪识别方法,其特征在于,所述的步骤1包括以下分步骤:步骤11:使用多任务级联卷积网络模型获取图像中人的面部信息;步骤12:将面部信息输入面部CNN;步骤13:引入损失函数减轻过拟合;步骤14:通过注意力机制找到图像中每个面部的概率权重并获得单个面部特征向量。3.根据权利要求2所述的一种基于注意力机制和混合网络的群体图像情绪识别方法,所述步骤12中的面部CNN采用ResNet18和SphereFace模型,其输入为96×112RGB对齐的人脸图像。4.根据权利要求3所述的一种基于注意力机制和混合网络的群体图像情绪识别...

【专利技术属性】
技术研发人员:邵洁钱勇生季欣欣李晓瑞莫晨程其玉
申请(专利权)人:上海电力学院
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1