基于先验注意力机制引导的深度学习表情识别方法技术

技术编号:31710744 阅读:18 留言:0更新日期:2022-01-01 11:14
本发明专利技术公开了一种基于先验注意力机制引导的深度学习表情识别方法,包括以下步骤:S1、对待识别的人脸图像进行人脸检测;S2、计算双眼和嘴部的中心坐标;S3、截取眼部和嘴部三个区域;S4、将人脸区域图像输入VGG16卷积神经网络,将眼部和嘴部区域图像输入到另一个VGG16卷积神经网络,得到四个一维特征向量;S5、获取全局人脸图像和三个局部区域图像对应的权重系数;S6、将特征向量与权重系数相乘;S7、进行特征融合;S8、输入全连接层进行特征降维;S9、通过Softmax激活函数激活得到表情类别。本发明专利技术结合眼动和注意力实验,在训练表情识别模型的时候,将更多的注意力放到特征更加丰富的眼部和嘴部区域,从而提高表情识别的准确率。从而提高表情识别的准确率。从而提高表情识别的准确率。

【技术实现步骤摘要】
基于先验注意力机制引导的深度学习表情识别方法


[0001]本专利技术属于计算机视觉和深度学习领域,特别涉及一种基于先验注意力机制引导的深度学习表情识别方法。

技术介绍

[0002]表情识别在计算机视觉领域一直都是受到人们的关注。表情识别在医疗健康、交通驾驶和心理学等领域都有普遍的应用。传统表情识别方法提取传统表情特征进行识别,传统表情特征提取方法有Gabor小波变换、局部二值模式(LBP)、局部线性嵌入(LLE)、梯度方向直方图(HOG)等。随着深度学习的发展,出现了使用卷积神经网络提取表情特征进行表情识别的方法,并且效果相比起传统方法有了很大的提升。但是在人脸表情图像分辨率比较低、质量较差、背景干扰较大的情况下,卷积神经网络提取的特征的相似度较高,导致网络无法正确识别各种表情,进而导致表情识别的准确率降低。
[0003]大量眼动实验和注意力实验证明,当人类在识别进行人脸识别或者表情识别等任务的时候,会将更多的注意力关注到人的眼睛和嘴巴等部位。这是因为人类的注意力资源是有限的,在进行视觉任务的时候,人类会将我们更加感兴趣的、包含更多信息的区域。计算机的计算资源同样是有限的,让计算机拥有人类的注意力机制,会大大提高计算机视觉任务的准确率。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,提供一种结合眼动和注意力实验,让神经网络模拟人类在进行表情识别任务时的注意力机制,在训练表情识别模型的时候,将更多的注意力放到特征更加丰富的眼部和嘴部区域,从而提高表情识别的准确率的基于先验注意力机制引导的深度学习表情识别方法。
[0005]本专利技术的目的是通过以下技术方案来实现的:基于先验注意力机制引导的深度学习表情识别方法,包括以下步骤:
[0006]S1、对待识别的人脸图像进行人脸检测,获取人脸区域图像;
[0007]S2、对获取的人脸区域图像进行人脸关键点检测,计算双眼和嘴部的中心坐标;
[0008]S3、通过双眼和嘴部的中心点坐标截取眼部和嘴部三个区域;
[0009]S4、将S1中获取的人脸区域图像输入VGG16卷积神经网络提取深度特征,输出一个全局的一维特征向量;将S3中获取的眼部和嘴部区域一共三个区域的图像输入到另一个VGG16卷积神经网络中,分别输出三个局部的一维特征向量,最终得到四个一维特征向量;
[0010]S5、通过预先进行的眼动和注意力实验,获取S1中全局人脸图像和S3中三个局部区域图像对应的特征向量的权重系数;
[0011]S6、将每个特征向量与其对应的权重系数相乘;
[0012]S7、进行特征融合,将相乘后的四个一维特征向量进行拼接操作,得到一个更大的一维向量;
[0013]S8、将S7中得到的特征向量输入全连接层进行特征降维;
[0014]S9、通过Softmax激活函数激活得到对应表情类别。
[0015]进一步地,所述步骤S2具体实现方法为:使用Dlib库的shape_predictor()函数调用Dlib库内置的训练好的人脸关键点检测模型shape_predictor_68_face_landmarks.dat进行人脸关键点检测,获得人脸68个关键点的坐标;其中,第36个关键点到第42个关键点为左眼的关键点,第42个关键点到第48个关键点为右眼的关键点,第48个关键点到第68个关键点为嘴巴的关键点;
[0016]通过关键点计算出左右眼和嘴巴的中心点的坐标分别为:
[0017]左眼中心点:
[0018]右眼中心点:
[0019]嘴巴中心点:
[0020]LMsets[]表示括号中关键点的坐标,LMsets[][0]表示关键点的横坐标,LMsets[][1]表示关键点的纵坐标。
[0021]进一步地,所述步骤S3中具体实现方法为:将S1中获取的人脸区域图像Resize为96x96像素大小,通过S3获取的三个中心坐标,将左右眼和嘴部区域从人脸区域截取出来,每个部分截取的大小为36x36。
[0022]进一步地,所述步骤S5具体实现方法为:
[0023]S51、通过预先进行的眼动和注意力实验,记录下眼动注视点分布图和眼动注视区域热图;
[0024]S52、将包含注视点的人脸表情图片Resize成为96x96,统计整个人脸表情图像注视点的个数,然后按照S3的方法截取左右眼和嘴巴三个区域;
[0025]S53、分别计算整个人脸表情图片及截取出来的左右眼和嘴巴四个区域的相对注视点分布比例系数,作为对应的特征向量的权重系数,计算方式为:
[0026]人脸区域:
[0027]左眼区域:
[0028]右眼区域:
[0029]嘴部区域:
[0030]本专利技术的有益效果是:本专利技术结合眼动和注意力实验,让神经网络模拟人类在进行表情识别任务时的注意力机制,让神经网络在训练表情识别模型的时候,将更多的注意力放到特征更加丰富的眼部和嘴部区域,从而提高表情识别的准确率。
附图说明
[0031]图1为本专利技术的全局

局部CNN表情识别方法的流程图;
[0032]图2为本专利技术的VGG16卷积神经网络结构示意图;
[0033]图3为本专利技术的眼动仪记录下的被试的眼动注视点分布图和眼动注视区域热图。
具体实施方式
[0034]下面结合附图进一步说明本专利技术的技术方案。
[0035]如图1所示,本专利技术的一种基于先验注意力机制引导的深度学习表情识别方法,包括以下步骤:
[0036]S1、对待识别的人脸图像进行人脸检测,获取人脸区域图像;待识别的图像可以使用国际中一些人脸表情公开数据集,比如FER2013、CK+、TFD和Jaffe等,或者采用摄像头获取图像。人脸检测的方法是使用Dlib库的get_frontal_face_detector()函数获取Dlib库内置的人脸检测器模型,可以检测到人脸并获取人脸相对于屏幕所在位置的四个坐标点,由这四个坐标点可以确定一个矩形检测框。
[0037]S2、对获取的人脸区域图像进行人脸关键点检测,计算双眼和嘴部的中心坐标;具体实现方法为:使用Dlib库的shape_predictor()函数调用Dlib库内置的训练好的人脸关键点检测模型shape_predictor_68_face_landmarks.dat进行人脸关键点检测,这个人脸关键点检测模型可以获得人脸68个关键点的坐标;其中,第36个关键点到第42个关键点为左眼的关键点,第42个关键点到第48个关键点为右眼的关键点,第48个关键点到第68个关键点为嘴巴的关键点;
[0038]通过关键点计算出左右眼和嘴巴的中心点的坐标分别为:
[0039]左眼中心点:
[0040]右眼中心点:
[0041]嘴巴中心点:
[0042]LMsets[]表示括号中关键点的坐标,LMsets[][0]表示关键点的横坐标,LMsets[][1]表示关键点本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于先验注意力机制引导的深度学习表情识别方法,其特征在于,包括以下步骤:S1、对待识别的人脸图像进行人脸检测,获取人脸区域图像;S2、对获取的人脸区域图像进行人脸关键点检测,计算双眼和嘴部的中心坐标;S3、通过双眼和嘴部的中心点坐标截取眼部和嘴部三个区域;S4、将S1中获取的人脸区域图像输入VGG16卷积神经网络提取深度特征,输出一个全局的一维特征向量;将S3中获取的眼部和嘴部区域一共三个区域的图像输入到另一个VGG16卷积神经网络中,分别输出三个局部的一维特征向量,最终得到四个一维特征向量;S5、通过预先进行的眼动和注意力实验,获取S1中全局人脸图像和S3中三个局部区域图像对应的特征向量的权重系数;S6、将每个特征向量与其对应的权重系数相乘;S7、进行特征融合,将相乘后的四个一维特征向量进行拼接操作,得到一个更大的一维向量;S8、将S7中得到的特征向量输入全连接层进行特征降维;S9、通过Softmax激活函数激活得到对应表情类别。2.根据权利要求1所述的基于先验注意力机制引导的深度学习表情识别方法,其特征在于,所述步骤S2具体实现方法为:使用Dlib库的shape_predictor()函数调用Dlib库内置的训练好的人脸关键点检测模型shape_predictor_68_face_landmarks.dat进行人脸关键点检测,获得人...

【专利技术属性】
技术研发人员:李永杰韦新栩张显石
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1