本发明专利技术涉及计算机视觉领域,公开了一种基于深度学习卷积神经网络的维度表情识别方法,本发明专利技术利用人脸检测模型进行人脸关键点检测,结合热力图预测的关键特征点进行表情识别,并在其中引入注意力机制,用来驱动对面部表情估计相关区域的关注;采用离散表情分类和连续表情回归的联合预测,以使网络对数据集中的异常值更具鲁棒性;最后使用一个专门定制的损失函数,来进行表情识别相关的度量的优化。来进行表情识别相关的度量的优化。来进行表情识别相关的度量的优化。
【技术实现步骤摘要】
一种基于深度学习卷积神经网络的维度表情识别方法
[0001]本专利技术涉及计算机视觉领域,具体涉及一种基于深度学习卷积神经网络的维度表情识别方法。
技术介绍
[0002]由于机器学习、深度学习的飞速发展以及高计算量设备的大量普及,人脸识别技术经历了空前的发展,基于深度学习的面部识别技术也被持续关注。面部情感分析旨在通过让计算机更好地理解一个人的情绪状态,从而提供特别的帮助和互动,但由于离散的情绪类别(如愤怒、快乐、悲伤等)不能代表人类日常所表现的全部情绪,心理学家还通常依赖于维度测量,即效价(情绪表现的积极程度)和唤醒(情绪表现看起来的平静或兴奋程度)。事实上虽然从人脸上估计这些值对于人类来说是很自然的,但对于基于计算机的系统来说,尤其是在自然条件下效价和唤醒的自动估计,是非常困难的。目前还未出现比较好的解决方案。
技术实现思路
[0003]为解决上述技术问题,本专利技术提供一种基于深度学习卷积神经网络的维度表情识别方法。
[0004]为解决上述技术问题,本专利技术采用如下技术方案:一种基于深度学习卷积神经网络的维度表情识别方法,包括以下步骤:步骤一、获取人物表情数据,利用RetinaFace:Mobilenet0.25网络获取人物表情数据中的人脸,并通过调整人脸关键点对人脸进行对齐;步骤二、将人脸对齐后的人物表情数据输入特征提取模型,得到关键特征点;所述特征提取模型包括多个级联的四阶HourGlass网络;每个四阶HourGlass网络输出一个热力图预测结果并作为下一个四阶HourGlass网络的输入;所述热力图预测结果包括为每个人脸关键点设置半径为r的缓冲区,沿着每一个缓冲区的径向、由内向外地、由浅至深地使用渐变灰度带对缓冲区进行填充;多个四阶HourGlass网络输出的热力图预测结果叠加,在有缓冲区交叉的区域,灰度值变大,以叠加后的灰度值为索引,选取得到所述的关键特征点;步骤三、利用表情识别模型,对提取的关键特征点进行处理,预测得到离散表情的分类以及连续表情的回归,连续表情包括情绪效价和情绪唤醒度;表情识别模型进行训练时,损失函数为:;是为离散表情分类所构建的损失函数:;是利用均方根误差为连续表情回归构建的损失函数:;
是利用皮尔森相关系数为连续表情回归构建的损失函数:;是利用协和相关系数为连续表情回归构建的损失函数:;为表情识别模型的预测结果,为真实结果,为交叉熵;、分别为在情绪效价的预测结果与真实结果之间求取的均方根误差和在情绪唤醒度的预测结果与真实结果之间求取的均方根误差,、分别为在情绪效价的预测结果与真实结果之间求取的皮尔森相关系数和在情绪唤醒度的预测结果与真实结果之间求取的皮尔森相关系数,、分别为在情绪效价的预测结果与真实结果之间求取的协和系数和在情绪唤醒度的预测结果与真实结果之间求取的协和系数;、、均为随机数,且。
[0005]具体地,所述人物表情数据包括人物表情图像和人物表情视频。
[0006]具体地,步骤一中利用RetinaFace:Mobilenet0.25网络检测人物表情数据中的人脸,并对人脸进行对齐时,输出的检测结果包括分类检测结果、人脸框的回归检测结果和人脸关键点的回归检测结果;分类检测结果用于判断先验框内部是否包含物体或者人脸;人脸框的回归检测结果:用于对先验框进行调整获得包含人脸的预测框;人脸关键点的回归检测结果:用于对先验框进行调整获得人脸关键点,通过调整人脸关键点对人脸进行对齐。
[0007]与现有技术相比,本专利技术的有益技术效果是:本专利技术提出了一种基于深度学习卷积神经网络的维度表情识别方法,改善了传统表情识别仅仅用于离散情绪识别这一单一功能,实现了包括68个关键特征点、离散表情以及连续表情的同时输出,来对自然环境中获取的表情特征进行情绪标定,填补了离散的情绪类别(如愤怒、快乐、悲伤等)不能代表人类日常所表现的全部情绪的缺陷。
[0008]本专利技术中的表情识别方案,对计算平台性能要求较低,数据集制作与训练成本较低,算法成熟易于移植。
[0009]本专利技术的多输出网络模型的构建方法,在情绪识别过程中使得神经网络模型可以获取更多有用的特征信息,人脸对齐结果与表情识别结果更加准确,且更具有说服力。
附图说明
[0010]图1为本专利技术维度表情识别方法的流程图;图2为本专利技术四阶HourGlass网络的示意图;图3为本专利技术多个四阶HourGlass网络级联的示意图;图4为本专利技术预测得到离散表情分类以及连续表情回归的示意图;
图5为本专利技术预测结果的示意图。
具体实施方式
[0011]下面结合附图对本专利技术的一种优选实施方式作详细的说明。
[0012]本专利技术利用人脸检测模型进行人脸关键点检测,结合热力图预测的关键特征点进行表情识别,并在其中引入注意力机制,用来驱动对面部表情估计相关区域的关注;采用离散表情分类和连续表情回归的联合预测,使网络对数据集中的异常值更具鲁棒性;最后使用专门定制的损失函数,来对表情识别相关的度量进行优化。
[0013]如图1所示,本专利技术提供了一种基于深度卷积神经网络的维度表情识别方法,具体步骤如下:S1、利用一台相机获取自然条件下的人物表情数据,对所获取的人物表情数据进行预处理并进行人脸检测。
[0014]无论是处理动态任务或是静态任务,无论是单一人物或者是多个人物,只要是在肉眼可区分级别以上,本专利技术均能进行情绪标定。因此本专利技术有着较为广泛的用途,在医疗监护系统、智能谈话系统、智慧校园以及辅助安全驾驶等等领域都有着较为广泛的应用。
[0015]对人物表情数据进行预处理时,对于图片形式的人物表情数据,需要剪裁至640像素
×
480像素的大小;对于视频形式的人物表情数据,人眼观感较为流畅的帧数为每秒12帧至24帧。本专利技术在人物表情视频中每秒抽取12帧图像进行后续的表情识别。本专利技术利用人脸检测模型(RetinaFace:mobilenet0.25网络)检测预处理后的人物表情数据中的人脸,最终得到的检测结果分为三类,分别是分类检测结果、人脸框的回归检测结果和人脸关键点的回归检测结果。
[0016]分类检测结果,用于判断先验框内部是否包含物体或者人脸。可以利用一个1
×
1的卷积,将人脸检测模型SSH模块的通道数调整成num_anchors
×
2,用于代表每个先验框内部包含人脸的概率;其中num_anchors为人脸关键点数量。
[0017]人脸框的回归检测结果,用于对先验框进行调整获得包含人脸的预测框,需要用四个参数对先验框进行调整,本专利技术利用一个1
×
1的卷积,将SSH模块的通道数调整成num_anchors
×
4,用于代表每个先验框的调整参数,四个先验框的调整参数包括先验框中心点的横坐标、纵坐标,以及先验框的长和宽。
[0018]人脸关键点的回归检测结果,用于对先验框进行调整获得人脸关键点,每张人脸有五个人脸关键点,每一个人脸关键点需要两个调整参数。本专利技术利用一个1
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习卷积神经网络的维度表情识别方法,包括以下步骤:步骤一、获取人物表情数据,利用RetinaFace:Mobilenet0.25网络获取人物表情数据中的人脸,并通过调整人脸关键点对人脸进行对齐;步骤二、将人脸对齐后的人物表情数据输入特征提取模型,得到关键特征点;所述特征提取模型包括多个级联的四阶HourGlass网络;每个四阶HourGlass网络输出一个热力图预测结果并作为下一个四阶HourGlass网络的输入;所述热力图预测结果包括为每个人脸关键点设置半径为r的缓冲区,沿着每一个缓冲区的径向、由内向外地、由浅至深地使用渐变灰度带对缓冲区进行填充;多个四阶HourGlass网络输出的热力图预测结果叠加,在有缓冲区交叉的区域,灰度值变大,以叠加后的灰度值为索引,选取得到所述的关键特征点;步骤三、利用表情识别模型,对提取的关键特征点进行处理,预测得到离散表情的分类以及连续表情的回归,连续表情包括情绪效价和情绪唤醒度;表情识别模型进行训练时,损失函数为:;是为离散表情分类所构建的损失函数:;是利用均方根误差为连续表情回归构建的损失函数:;是利用皮尔森相关系数为连续表情回归构建的损失函数:;是利用协和相关系数为连续表情回归构建的损失...
【专利技术属性】
技术研发人员:张祎霖,孙晓,
申请(专利权)人:合肥综合性国家科学中心人工智能研究院安徽省人工智能实验室,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。