一种鲁棒的基于深度学习的连续情绪跟踪方法技术

技术编号:15763727 阅读:100 留言:0更新日期:2017-07-06 02:14
本发明专利技术涉及一种鲁棒的基于深度学习的连续情绪跟踪方法,其步骤为:1)构建训练样本并训练归一化模型和连续情绪跟踪模型;2)获取表情图像并进行预处理,将预处理完成的表情图像送到训练好的归一化模型,得到标准光照和标准头部姿态的表情图片;3)将归一化后的标准图像作为连续情绪跟踪模型的输入,连续情绪跟踪模型自动提取输入表情相关的特征并根据时序信息产生当前帧的跟踪结果;重复步骤2)‑3)直至完成整个连续情绪跟踪流程。本发明专利技术采用基于深度学习的方法构建情绪识别模型实现连续情绪跟踪和预测,能够对光照和姿态变化具有鲁棒性,而且能够充分利用表情表达的时序信息,基于历史情绪特征更稳定地跟踪当前用户的情绪。

A robust continuous emotion tracking method based on depth learning

Continuous emotional tracking method based on deep learning of the present invention relates to a robust, which comprises the following steps: 1) to construct training samples and normalized training model and the continuous emotional tracking model; 2) to obtain expression image and pretreatment, will be sent to the normalization model trained expression image preprocessing finishes, get the standard light standard and head pose face images; 3) the standard normalized image as a continuous emotional tracking model input, continuous tracking automatic extraction model of emotional expression of related characteristics and input according to the timing information tracking results when the previous frame; repeat step 2) 3) until the continuous tracking process to complete the mood. Emotion recognition model to realize continuous emotional tracking and prediction method based on deep learning is constructed by the invention, can be robust to illumination and pose variation, temporal information and make full use of expression, historical and emotional characteristics of more stable tracking current users based on emotions.

【技术实现步骤摘要】
一种鲁棒的基于深度学习的连续情绪跟踪方法
本专利技术涉及人机交互、图像处理、人工智能领域,具体涉及一种鲁棒的基于深度学习的连续情绪跟踪方法。
技术介绍
情感意图理解的目的是通过赋予计算机识别、理解、认知人的情感的能力,从而使计算机具有更高的类人智能,提供更加自然的人机交互体验。随着计算机设备、网络摄像头等设备的普及,使得基于视觉通道的情绪识别成为分析用户情绪最有效的手段。目前大多数情绪识别方法将情绪分为几个基本类别,如高兴、愤怒、悲伤、惊讶等,这样就将情绪识别问题转化为分类问题,然后通过精心设计的人工特征提取方法,从二维表情图片上提取出包含基于纹理或者几何的情绪特征用于情绪分类。二维表情特征提取实现简单,可以从表情图片上直接提取,因此被广泛应用于情绪识别算法中。基于分类的情绪识别由于情绪类别的急剧变化会导致计算机对用户的反馈产生突变,大大降低用户体验。考虑到人自然情绪表达的连续性,采用基于维度空间的连续情感模型PAD来描述人的情绪能更细致反应情绪变化以及趋势。此外,基于图片的二维表情特征在处理头部姿态变化、面外翻转时准确率会急剧下降,变得不稳定,为了克服这些问题,一些基于三维特征的情绪跟踪算法被提出,这些算法利用三维几何特征或者深度特征来对用户的三维头部信息进行恢复,从恢复后的三维头部信息来估计用户情感及其变化,但存在算法复杂及获取深度信息设备限制的问题。区别于传统的基于视觉的情绪识别方法,采用深度学习的方法模拟人脑的分层模型,通过把原始图像数据通过一些非线性变换转变成为更高层次的、更加抽象的表达,可以自动提取比大多手工特征更具有区分性的特征。专利“一种基于深度学习的人脸表情识别方法”(公开号:CN103793718A)公开了一种使用DBN在二维图片上学习情绪特征并进行分类,该方法在实验中取得了很好的效果,但由于没有对表情图片的光照和姿态进行处理,而且识别中逐帧处理没有考虑表情的时序特征,影响其在实际应用时的鲁棒性。
技术实现思路
针对上述问题,本专利技术提出一种鲁棒的基于深度学习的连续情绪跟踪方法,能够处理情绪跟踪过程中光照和头部姿态变动,自动学习情绪在特征空间的表达,利用时域信息在连续情感空间里对情绪进行鲁棒跟踪。为达到上述目的,本专利技术采取的具体技术方案如下:一种鲁棒的基于深度学习的连续情绪跟踪方法,该方法包括:表情模型训练步骤和在线连续表情跟踪步骤。其中表情模型包括归一化模型和连续情绪跟踪模型。所述归一化模型的训练步骤包括:S1,构建包含不同光照和姿态的人脸表情数据库;S2,将每张表情图片进行预处理,同一个人不同光照和姿态的表情图像与标准光照和标准姿态图像两两构成一个训练样本;S3,神经网络模型采用Encoder-Decoder(编码-解码)框架(BengioY.LearningDeepArchitecturesforAI[J].Foundations&TrendsinMachineLearning,2009,2(1):1-55.),输入包含输入图像光照和姿态编码的训练样本,通过Encoder输出标准光照和标准姿态的表情图像以及输入图像的光照和姿态编码,Encoder的结果通过Decoder还原出输入的表情图像,通过多任务学习的方式来优化整个归一化模型。进一步地,步骤S1的实现包括:S1.1,制定光照和姿态的量级,对光照姿态进行编码,并制定表情数据库文件的命名规范;S1.2,采用高清的网络摄像头收集每个被试者在不同光照和姿态下的不同的表情图像和在标准光照和标准姿态下的相应的表情图像,并按照命名规范命名;S1.3,对S1.2所搜集的图片人工选取并标定相应的光照、头部姿态和表情信息。进一步地,S2中的预处理包括人脸区域检测裁剪,图像灰度化,尺寸归一。进一步地,S3中的输入图像的光照和姿态编码可以采用独热码等多种编码方式,光照和姿态编码可以附着在输入图像的行或者列或者边缘处,和表情图像一起作为神经网络的输入。进一步地,S3中采用Encoder-Decoder的网络模型,Encoder和Decoder具体实现可以使用CNN或者DBN,或者两者混合使用。所述连续情绪跟踪模型的训练步骤包括:S4,从S1中构建的表情数据库中挑选出标准姿态的各种表情视频片段,标注视频各帧表情图片在PAD情感空间中的各维度值(PAD情感空间中,P代表愉悦度,A代表激活度,D代表优势度);S5,采用神经网络模型,利用视频片段和每一帧的PAD维度值,训练包含时序的连续情绪跟踪模型。进一步地,S4中每帧表情图片PAD维度值的标注可以人工标注,也可程序标注。进一步地,S5中神经网络模型采用包含时序的网络结构,能够根据历史帧的情感特征和当前帧的情感特征回归输出当前表情图片在PAD情感空间中的各维度值。进一步地,S5中的包含时序的网络结构可以采用3D-CNN或者CNN+RNN等。其中CNN为卷积神经网络(ConvolutionNeuralNetwork),RNN为循环神经网络(RecurrentNeuralNetworks),包括长短期记忆神经网络LSTM(Long-ShortTermMemory),循环门控单元GRU(GatedRecurrentUnit)等。其中,LSTM参见文献“HochreiterS,SchmidhuberJ.LongShort-TermMemory[J].NeuralComputation,1997,9(8):1735-1780.”;GRU参见文献“Cho,Kyunghyun,etal."LearningphraserepresentationsusingRNNencoder-decoderforstatisticalmachinetranslation."arXivpreprintarXiv:1406.1078(2014).”。若采用3D-CNN,则需要缓存历史输入帧,情绪跟踪时将当前帧和历史输入帧共同作为3D-CNN的输入;若采用RNN等时序记忆模型,则隐式地保存历史输入状态,输出当前帧的跟踪结果时,同时更新历史输入状态。所述在线连续表情跟踪步骤包括:S6,使用网络摄像头实时采集被试者的表情视频;S7,对于S6中采集的每一帧包含表情的图像进行同S2中的预处理,然后作为S3所述训练好的归一化模型的输入,进行光照和姿态矫正;S8,对于S7中的矫正后的图像作为S5中训练好的包含时序的连续情绪跟踪模型的输入,进行实时的连续情绪跟踪。进一步地,S7中每一帧图片在预处理之前首先进行人脸检测,只有人脸检测成功后才进行预处理和姿态及光照矫正,丢弃没有检测到人脸的帧。与现有技术相比,本专利技术的有益效果如下:1.实现连续情绪跟踪和预测,能够对光照和姿态变化具有鲁棒性。本专利技术利用深度学习方法对普通的二维网络摄像头采集的图像进行三维人脸姿态矫正,能够在摆脱对深度采集设备依赖的同时,显著提高情绪跟踪的准确率和稳定性。2.基于历史情绪特征更稳定的跟踪当前情绪。人的情绪表达是个渐进的过程,具有一定的稳定性和连续性,本专利技术的连续情绪跟踪模型能够充分利用表情表达的时序信息,从而实现更稳定的情绪跟踪。3.基于深度学习的方法构建情绪识别模型,以情绪跟踪为导向去学习表情特征的提取,能够提取出更本质的表情特征。附图说明图1为本专利技术表情跟踪总体流本文档来自技高网
...
一种鲁棒的基于深度学习的连续情绪跟踪方法

【技术保护点】
一种鲁棒的基于深度学习的连续情绪跟踪方法,其特征在于,包括以下步骤:1)构建训练样本并训练归一化模型和连续情绪跟踪模型;2)获取表情图像,通过归一化模型将其转换为标准图像;3)通过连续情绪跟踪模型并利用时序信息产生当前帧的标准图像的情绪跟踪结果;4)重复步骤2)‑3),直至完成全部情绪跟踪任务。

【技术特征摘要】
1.一种鲁棒的基于深度学习的连续情绪跟踪方法,其特征在于,包括以下步骤:1)构建训练样本并训练归一化模型和连续情绪跟踪模型;2)获取表情图像,通过归一化模型将其转换为标准图像;3)通过连续情绪跟踪模型并利用时序信息产生当前帧的标准图像的情绪跟踪结果;4)重复步骤2)-3),直至完成全部情绪跟踪任务。2.如权利要求1所述的方法,其特征在于,步骤1)所述归一化模型和所述连续情绪跟踪模型采用深度神经网络实现。3.如权利要求2所述的方法,其特征在于,所述归一化模型用于处理二维图像中包括光照归一和姿态矫正在内的问题,用以提升识别过程中的鲁棒性。4.如权利要求3所述的方法,其特征在于,所述归一化模型采用基于Encoder和Decoder框架的深度学习模型,包括基于CNN或者RBM构建的Encoder-Decoder模型;Decoder的网络结构与Encoder相对称;模型训练时采用包含矫正图像任务和重建输入任务的多任务学习的损失函数。5.如权利要求2所述的方法,其特征在于,所述连续情绪跟踪模型采用利用时序信息的深度学习模...

【专利技术属性】
技术研发人员:郭清沛陈辉姚乃明王宏安
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1