一种结合注意力机制的面部表情识别方法及系统技术方案

技术编号:27515451 阅读:32 留言:0更新日期:2021-03-02 18:48
本发明专利技术提供一种结合注意力机制的面部表情识别方法及系统,包括:检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸ROI,得到每个视频帧内的人脸图片;基于人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行对齐;将对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;将人脸面部表情的空间特征输入到混合注意力模块,获取人脸面部表情的融合特征;将人脸面部表情的融合特征输入到门控制循环单元,提取人脸面部表情的时间特征;将人脸面部表情的时间特征输入到全连接层,对人脸面部表情进行分类识别。本发明专利技术将混合注意力模块嵌入卷积神经网络和循环神经网络中,提高了面部表情识别的准确率。表情识别的准确率。表情识别的准确率。

【技术实现步骤摘要】
一种结合注意力机制的面部表情识别方法及系统


[0001]本专利技术属于表情识别
,更具体地,涉及一种结合注意力机制的面部表情识别方法及系统。

技术介绍

[0002]面部表情是人类传达情绪状态生理和心理的反应,面部表情识别在机器人、智能医疗、人机交互和在线教育等多个领域都有广泛的应用。目前的面部表情识别技术主要分为静态图片识别和动态视频序列识别。图片识别只考虑当前图像特征,但面部表情是一个动态变化的过程,静态图片识别忽略了表情在时间维度和空间维度上的变化,存在局限性。因此进一步的研究面部表情识别需要考虑表情的空时特征,在视频序列上对面部表情识别以提升算法的性能。
[0003]目前常用于视频序列面部表情识别的技术包括CNN+RNN级联网络、三维卷神经网络3DCNN、光流法等。CNN+RNN级联网络是将卷积神经网络CNN与循环神经网络RNN结合的级联网络对视频序列下的面部表情空时变化进行建模。为了达到较好的识别效果,会使用较深的卷积神经网络结构,同时选择LSTM网络作为时间特征提取器,利用连续特征向量间的相关性提取特征。但级联网络方法过深的网络也会导致梯度爆炸或梯度消失等问题。
[0004]三维卷积神经网络3DCNN在常规2D空间卷积基础上,增加一个时间维度,形成三维卷积,从而获取时序信息。C3D网络最早用于视频序列的表情识别,基于C3D的变体网络如I3D结合人脸特征点提取表情的几何特征,3DCNN-DAP将面部动作约束与3DCNN结合提升表情识别效果。由于三维卷积神经网络相较于2D网络增加一个时间维度,导致训练参数更多,计算量更大。
[0005]光流法是利用表情序列在时间维度上的变化和帧间关联,找到帧变化关系,从而计算出相邻帧之间面部表情的变化信息。光流法与卷积神经网络结合,形成双路集成网络模型,一路用于单帧图像特征提取,一路训练多帧数据的光流图,提取时序信息。最后融合两路空时特征输出结果。但光流法在训练前对视频序列提取光流图,进行大量预处理工作,导致过程耗时长,实时性较差。
[0006]综上,虽然现有的面部表情识别技术取得了较好的识别结果,但仍有不少缺点。大多方法都是对在实验环境下采集的表情数据集验证,对于在自然条件下,受到头部姿态偏移、光照变化、遮挡、运动模糊等因素影响的表情识别率大大降低,这使得自然条件下的面部表情识别仍然是一个具有挑战性的问题。

技术实现思路

[0007]针对现有技术的缺陷,本专利技术的目的在于提供一种结合注意力机制的面部表情识别方法及系统,旨在解决现有的面部表情识别技术对于在自然条件下,受到头部姿态偏移、光照变化、遮挡、运动模糊等因素影响,导致表情识别率大大降低的问题。
[0008]为实现上述目的,第一方面,本专利技术提供了一种结合注意力机制的面部表情识别
方法,包括如下步骤:
[0009]检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;
[0010]基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;
[0011]将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;
[0012]将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低于阈值的权重,以关联视频帧间人脸面部表情的特征信息,提取相邻视频帧间人脸面部表情的依赖关系,剔除无关的干扰特征,获取人脸面部表情的融合特征;
[0013]将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络,提取人脸面部表情的时间特征;
[0014]将从视频序列中提取的人脸面部表情的时间特征输入到全连接层,基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。
[0015]在一个可选的实施例中,所述基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;具体为:
[0016]检测每个视频帧内人脸图片中的多个面部表情特征点,所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域;
[0017]基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置,并基于所述人脸中间点的位置对所述人脸图片进行对齐;所述对齐为相对平面直角坐标系对齐,其中,对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。
[0018]在一个可选的实施例中,所述基于所述人脸中间点的位置对所述人脸图片进行对齐,具体为:使用仿射变换矩阵基于人脸中间点的位置对人脸图片进行对齐。
[0019]在一个可选的实施例中,所述将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前,还包括如下步骤:
[0020]将对齐后的人脸图片的大小统一调整成预设大小的图片。
[0021]在一个可选的实施例中,所述残差神经网络、混合注意力模块、循环神经网络以及全连接层均需要通过预先训练,训练好之后再进行面部表情识别;
[0022]在训练阶段,输入到所述残差神经网络的人脸图片,除需要进行人脸图片对齐、调整成统一大小图片外,还需对每张人脸图片打上对应的面部表情标签;所述面部表情标签即为每张人脸图片的面部表情的识别结果。
[0023]在一个可选的实施例中,所述混合注意力模块由自注意力模块和空间注意力模块组成;
[0024]所述自注意力模块通过卷积操作,对单帧的表情在空间维度上计算自注意力权重,将权重分配给空间特征,获取空间关注特征向量;
[0025]所述空间注意力模块,将多帧的空间关注特征进行全连接操作,提取帧维度上的注意权重,并对多帧特征进行特征融合,计算相邻帧间的表情变化特征,得到融合空时注意力权重的融合特征向量。
[0026]第二方面,本专利技术提供了一种结合注意力机制的面部表情识别系统,包括:
[0027]人脸图片检测单元,用于检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;
[0028]人脸图片对齐单元,用于基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;
[0029]空间特征提取单元,用于将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;
[0030]融合特征提取单元,用于将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种结合注意力机制的面部表情识别方法,其特征在于,包括如下步骤:检测视频序列中每个视频帧内包括的人脸,并提取对应的人脸感兴趣区域,得到每个视频帧内的人脸图片;基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络中,提取人脸图片对应的人脸面部表情的空间特征;将从视频序列中提取的人脸面部表情的空间特征输入到混合注意力模块,所述混合注意力模块通过注意力机制计算面部表情的特征权重,给面部表情变化的关注区域分配高于阈值的权重,面部表情变化无关的区域分配低于阈值的权重,以关联视频帧间人脸面部表情的特征信息,提取相邻视频帧间人脸面部表情的依赖关系,剔除无关的干扰特征,获取人脸面部表情的融合特征;将从视频序列中获取的人脸面部表情的融合特征输入到循环神经网络,提取人脸面部表情的时间特征;将从视频序列中提取的人脸面部表情的时间特征输入到全连接层,基于所述全连接层中预存的人脸面部表情模板对视频中人脸的面部表情进行分类识别。2.根据权利要求1所述的结合注意力机制的面部表情识别方法,其特征在于,所述基于每个视频帧内的人脸图片的面部特征点的位置信息对每个视频帧内的人脸图片进行矫正,使得每个视频帧内的人脸图片相对平面直角坐标系对齐;具体为:检测每个视频帧内人脸图片中的多个面部表情特征点,所述多个面部表情特征点分别分布在眼部区域、眉毛区域、鼻子区域、嘴部区域以及面部轮廓区域;基于每个视频中内人脸图片的眼部区域的特征点和眉毛区域的特征点确定人脸图片中人脸中间点的位置,并基于所述人脸中间点的位置对所述人脸图片进行对齐;所述对齐为相对平面直角坐标系对齐,其中,对齐后的人脸图片的两边分别平行于平面直角坐标系的两个轴。3.根据权利要求2所述的结合注意力机制的面部表情识别方法,其特征在于,所述基于所述人脸中间点的位置对所述人脸图片进行对齐,具体为:使用仿射变换矩阵基于人脸中间点的位置对人脸图片进行对齐。4.根据权利要求2所述的结合注意力机制的面部表情识别方法,其特征在于,所述将视频序列中每个视频帧内对齐后的人脸图片输入到残差神经网络之前,还包括如下步骤:将对齐后的人脸图片的大小统一调整成预设大小的图片。5.根据权利要求4所述的结合注意力机制的面部表情识别方法,其特征在于,所述残差神经网络、混合注意力模块、循环神经网络以及全连接层均需要通过预先训练,训练好之后再进行面部表情识别;在训练阶段,输入到所述残差神经网络的人脸图片,除需要进行人脸图片对齐、调整成统一大小图片外,还需对每张人脸图片打上对应的面部表情标签;所述面部表情标签即为每张人脸图片的面部表情的识别结果。6.根据权利要求1至5任一项所述的结合注意力机制的面部表情识别方法,其特征在于,所述混合注意力模块由自注意力模块和空间注意力模块组成;
所述自注意力模块通过卷积操作,对...

【专利技术属性】
技术研发人员:刘三女牙杨宗凯叶世豪朱晓亮戴志诚赵亮
申请(专利权)人:华中师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1