基于时空融合网络的面部表情识别方法技术

技术编号:25757223 阅读:14 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种基于时空融合网络的人脸表情识别方法,包括如下步骤:首先,对输入图像进行预处理;然后,构建了可以从时域和空域两个不同维度上分别学习人脸表情特征的时空融合网络,利用训练样本对时空融合网络的两个模块分别进行训练,最后利用一种基于微调策略的最佳融合方法将不同维度学习到的表情时空特征有效融合;测试时将待检测的人脸表情图像序列输入到训练好的时空融合网络中,得到表情的分类类别。本发明专利技术具有如下有益效果:本发明专利技术使用基于微调策略的最佳融合方法,能够更加有效的将学习到的表情时空特征进行融合,提高了对表情特征的学习能力;能够提高面部表情识别的准确率。

【技术实现步骤摘要】
基于时空融合网络的面部表情识别方法
本专利技术涉及面部表情识别
,尤其是涉及一种能够提高面部表情识别准确率的基于时空融合网络的面部表情识别方法。
技术介绍
面部表情是人类传递情感状态最自然和普遍的信号之一,表情识别在商业、安全、医学等领域有着广泛的应用前景,能够快速准确地识别出面部表情对其研究与应用具有重要意义。目前针对面部表情识别的研究大致可以分为两类:基于静态图像的方法和基于动态视频序列的方法。基于静态图像中的人脸表情识别只需要利用表情的峰值图像就可以进行识别。但是,表情产生的本身对应着一个连续的面部肌肉运动过程,仅使用其中的静态峰值表情图像会丢失一些重要信息,例如:面部表情的运动信息。因此,为了进一步集成表情的时域特征,我们需要研究基于动态视频序列的人脸表情识别方法,以提升算法的表情识别性能。近几年,研究人员提出了一系列基于视频序列的人脸表情识别方法,但是作为特殊的面部分析任务,人脸表情识别具有其自身的特点。特别地,人脸表情可以被认为是人脸上关键组件(例如眉毛、眼睛,鼻子和嘴巴)的动态变化,这些关键组件的变化组合在一起即形成了整个人脸表情的变化。针对人脸面部关键组件的动态变化,已有方法尝试通过手工设计或者深度学习的方法从连续帧中提取出时域上的动态表情特征。但是,一方面,手工设计的特征通常难以正确提取出蕴藏在面部图像序列中的时域特征;另一方面,直接将图像序列输入到深度神经网络中,无法有效利用人脸关键组件的先验知识,不利于表情时域特征的学习。
技术实现思路
本专利技术为了克服现有技术中存在的基于视频特征的表情分类十分困难,无法准确地提取出人脸表情在时域上的运动特征,以及无法将学习到了表情时空特征进行有效融合,这将导致网络的学习能力不足,识别准确率低的不足,提供了一种能够提高面部表情识别准确率的基于时空融合网络的面部表情识别方法。为了实现上述目的,本专利技术采用了以下技术方案:一种基于时空融合网络的面部表情识别方法,包括如下步骤:(1-1)输入视频序列的预处理;(1-2)构建双流时空融合网络;(1-2-1)利用LTCNN模块提取面部表情的时域特征;(1-2-2)利用DMF模块提取面部表情的空域特征;(1-2-3)利用微调融合模块将两个不同维度的表情时空特征有效融合;(1-3)对面部表情图像序列进行分类。本专利技术输入的是带有面部表情信息的人脸视频序列,首先,对输入视频序列进行预处理;然后,构建了可以从时域和空域两个不同维度上分别学习人脸表情特征的时空融合网络,利用训练样本对时空融合网络的两个模块分别进行训练;最后利用一种基于微调策略的最佳融合方法将不同维度学习到的表情特征有效融合;测试时将待检测的人脸表情视频序列输入到训练好的时空融合网络中,得到表情的分类类别。作为优选,步骤(1-2-1)的具体步骤如下:(2-1)初始化LTCNN模块;(2-2)LTCNN模块由四个卷积层、两个全连接层和一个Softmax分类层组成,通过其中的卷积层和全连接层对输入的类特征图进行进一步的高级别语义特征提取,以学习得到类特征图中关键点轨迹中蕴含的更具判别性的表情时域特征;(2-3)最后,以交叉熵作为损失函数来训练网络,通过Softmax层来估计表情类别。作为优选,步骤(1-2-2)的具体步骤如下:(3-1)初始化DMF模块中的DCNN子模块;(3-2)在人脸表情数据库上,利用softmax损失函数对DCNN子模块进行调整,得到预训练的DCNN子模块;(3-3)DCNN子模块使用多个全连接的分支层,每一个分支都有一个固定大小的全连接层以及相关联的阈值πi,i∈{1,2,...,N};(3-4)将图像x嵌入到欧式空间得到嵌入特征fi(x),在训练期间,每一个分支由对称三元组损失进行约束,表示为lossi,i∈{1,2,...,N}。(3-5)在训练的每个batch中,将每一个训练样本作为查询图像,选择与查询样本具有相同表情的图像样本以及具有不同表情的图像样本来构造三元组;查询图像作为锚点与查询样本具有相同表情的图像样本作为正样本具有不同表情的图像样本作为负样本则对称三元组损失的形式如下(3-6)将N-metric子模块中所有分支学习到的表情空域特征进行融合;(3-7)使用两个全连接层,联合softmax损失函数进行面部表情分类。作为优选,步骤(1-2-3)的具体步骤如下:(4-1)采用基于微调的融合策略将两个模块学习到的表情时空特征更好的互补融合。作为优选,步骤(4-1)中基于微调的融合策略其具体步骤如下:(5-1)首先采用不同的学习率和学习策略对LTCNN和DMF模块分别进行训练;(5-2)去掉训练好的两个模块中网络的softmax层,并把两个网络的最后一个全连接层级联在一起,作为后面一个新加的全连接层的输入,构成时空融合网络,实现两个网络输出特征的有效融合;(5-3)最后,我们对由预训练好的DMF和LTCNN模块结合在一起的时空融合网络进行进一步的微调训练,并通过softmax层进行表情分类。采用四种不同的微调方案,以非常小的学习率进行网络调整。作为优选,步骤(5-3)中四种不同微调方案的具体步骤如下:(6-1)局部微调,固定两个模块参数,只微调最后面新加的全连接融合层和softmax分类层;(6-2)固定DMF模块的微调,固定DMF模块中的参数,联合微调LTCNN模块以及后面新加的全连接融合层和softmax分类层;(6-3)固定LTCNN模块的微调:固定LTCNN模块中的参数,联合微调DMF模块以及后面新加的全连接融合层和softmax分类层。(6-4)整体微调:对时空融合网络中的所有模块进行整体联合微调。作为优选,步骤(1-3)的具体步骤如下:(7-1)在训练期间,首先单独训练好时空融合网络中的DMF和LTCNN子网络。DMF模块的总损失定义如下:其中loss0为softmax损失函数的损失;LTCNN模块的损失为softmax损失函数。(7-2)基于不同的微调融合策略进行微调,最终由微调融合模块中的softmax分类层进行最终分类。作为优选,步骤(1-1)的具体步骤如下:(8-1)利用序列归一化方法将所有序列统一为包含11帧的固定序列,然后使用面部关键点来剪裁每帧感兴趣的面部区域并对剪裁后的图像进行缩放得到固定的面部图像序列;(8-2)针对固定的面部图像序列,使用关键点提取算法提出每帧图像的51个关键点坐标,从而来构成类特征图,并采用在线的数据增强方法对类特征图进行图像增强,增强过的类特征图作为LTCNN模块的输入数据;(8-3)抽取出每个序列的最后一张表情峰值帧图像,采用离线和在线的数据增强方法对峰值表情图像进行图像增强,增强过的图像作为DMF模块的输入数据。因此,本专利技术具有如下有益效果:本专利技术利用人脸关键点轨迹卷积神本文档来自技高网...

【技术保护点】
1.一种基于时空融合网络的面部表情识别方法,其特征在于,包括如下步骤:/n(1-1)输入视频序列的预处理;/n(1-2)构建双流时空融合网络;/n(1-2-1)利用LTCNN模块提取面部表情的时域特征;/n(1-2-2)利用DMF模块提取面部表情的空域特征;/n(1-2-3)利用微调融合模块将两个不同维度的表情时空特征有效融合;/n(1-3)对面部表情图像序列进行分类。/n

【技术特征摘要】
1.一种基于时空融合网络的面部表情识别方法,其特征在于,包括如下步骤:
(1-1)输入视频序列的预处理;
(1-2)构建双流时空融合网络;
(1-2-1)利用LTCNN模块提取面部表情的时域特征;
(1-2-2)利用DMF模块提取面部表情的空域特征;
(1-2-3)利用微调融合模块将两个不同维度的表情时空特征有效融合;
(1-3)对面部表情图像序列进行分类。


2.根据权利要求1所述的基于时空融合网络的面部表情识别方法,其特征在于,步骤(1-2-1)的具体步骤如下:
(2-1)初始化LTCNN模块;
(2-2)LTCNN模块包括四个卷积层、两个全连接层和一个Softmax分类层,通过其中的卷积层和全连接层对输入的类特征图进行进一步的高级别语义特征提取,以学习得到类特征图中关键点轨迹中蕴含的更具判别性的表情时域特征;
(2-3)最后,以交叉熵作为损失函数来训练网络,通过Softmax层来估计表情类别。


3.根据权利要求1所述的基于时空融合网络的面部表情识别方法,其特征在于,步骤(1-2-2)的具体步骤如下:
(3-1)初始化DMF模块中的DCNN子模块;
(3-2)在人脸表情数据库上,利用softmax损失函数对DCNN子模块进行调整,得到预训练的DCNN子模块;
(3-3)DCNN子模块使用多个全连接的分支层,每一个分支都有一个固定大小的全连接层以及相关联的阈值πi,i∈{1,2,...,N};
(3-4)将图像x嵌入到欧式空间得到嵌入特征fi(x),在训练期间,每一个分支由对称三元组损失进行约束,表示为lossi,i∈{1,2,...,N}。
(3-5)在训练的每个batch中,将每一个训练样本作为查询图像,选择与查询样本具有相同表情的图像样本以及具有不同表情的图像样本来构造三元组;查询图像作为锚点与查询样本具有相同表情的图像样本作为正样本具有不同表情的图像样本作为负样本则对称三元组损失的形式如下



(3-6)将N-metric子模块中所有分支学习到的表情空域特征进行融合;
(3-7)使用两个全连接层,联合softmax损失函数进行面部表情分类。


4.根据权利要求1所述的基于时空融合网络的面部表情识别方法,其特征在于,步骤(1-2-3)的具体步骤如下:
(4-1)采用基于微调的融合策略将两个模块学习到的表情时空特征更好的互补融合。


5.根据权利要求4所述的基于时空融合网络的面部表情...

【专利技术属性】
技术研发人员:黄军民
申请(专利权)人:杭州尚课网络科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1