一种基于深度学习的表情分类及微表情检测的方法技术

技术编号:19263816 阅读:100 留言:0更新日期:2018-10-27 02:34
本发明专利技术公开一种基于深度学习的表情分类及微表情检测的方法,包括:将待测数据调整为预设格式的图像后进行地标点定位检测,将图像和检测的地标点作为第一输入样本;基于预设的微表情与地标点位置对照表作为第二输入样本,将第一输入样本和第二输入样本使用随机最速下降法进行深度学习网络的训练,通过深度学习网络结构中新增的首层对图像进行目标区域剪裁,将剪裁后的图像分别同时进入深度学习网络结构中对应的各个层的进行训练,输出表情分类及微表情的检测结果。本发明专利技术解决了已有的人工特征方法或者深度学习方法准确率不高的技术问题。提出了新的深度学习模型,提高了表情分类和微表情检测的准确率。

A method of expression classification and micro expression detection based on deep learning

The invention discloses a method for expression classification and microexpression detection based on depth learning, which includes: locating and detecting landmarks after adjusting the data to be measured to an image in a preset format, taking the image and the detected landmarks as the first input sample, and taking the preset microexpression and the landmark position contrast table as the second input. The first input sample and the second input sample are trained by the stochastic steepest descent method in the depth learning network. The target region is clipped by the new first layer in the depth learning network structure, and the clipped image is trained at the corresponding layers of the depth learning network structure at the same time. Output expression classification and micro expression detection results. The invention solves the technical problem that the accuracy of the existing artificial feature method or the depth learning method is not high. A new deep learning model is proposed, which improves the accuracy of facial expression classification and micro expression detection.

【技术实现步骤摘要】
一种基于深度学习的表情分类及微表情检测的方法
本专利技术涉及的是一种基于深度学习的表情分类及微表情检测的方法,属于计算机视觉

技术介绍
人们一直在进行针对人脸表情的研究,当前最基础的表情方面的研究为表情分类,将表情分为开心,惊讶,恐惧,伤心,厌恶,愤怒,无表情,这是最基本的一种分类方法。但实际上人的表情远非以上7种表情所能涵盖,更多细微的表情反映出人更多的内心活动,心理学家PaulEkman和研究伙伴WallaceV.Friesen做了深入研究创造了面部行为编码系统FACS,根据人脸解剖学的特点,根据人脸肌肉的动作,对人脸面部变化划分成了相互独立有相互联系的动作单元AU(ActionUnit),本专利所述微表情采取此定义,即本专利所描述的微表情检测方法是针对AU单元的检测方法。PaulEkman和WallaceV.Friesen在1978年首发论文《FacialActionCodingSystem:ATechniquefortheMeasurementofFacialMovement》对FACS进行了最初的定义,之后与2002年,PaulEkman、WallaceV.Friesen和JosephC.Hager发表论文《FacialActionCodingSystem:TheManualonCDROM》对FACS进行了一次改进,形成了现在人们使用的面部行为编码系统。在深度学习未得到较广泛应用以前,受制于计算能力,人们更多情况下采用提取人工制造特征的方式进行表情和微表情检测,且此种检测实际上靠分类任务完成,比如提取图像的HOG(HistogramofOrientedGratitude)特征或者CEDD(ColorandEdgeDirectivityDescriptor)特征,之后将提取到的特征进行级联或者特征选择、PCA(PrincipalComponentAnalysis)降维、级联SVM(SupportVectorMachine)的方式进行表情或微表情有还是无的分类。这种方式所采用的人工特征,在制作的过程中,为了达到比较好的效果,多半伴随着结构复杂、计算量大的特点,并且很多无法有效区分噪声信息和有用信息,在提升抗噪声性的同时将部分有用信息也同时滤除,鲁棒性不强。近年来,在并行计算技术得到发展以后,计算机硬件随之对并行进行的大计算量有了保障,得意于此,深度学习(DeepLearning)得到了比较大的发展。深度学习网络(DeepLearningNetwork)在计算机视觉的分类、检测、分割等任务上取得了比较大的效果提升。在微表情AU检测上,图像方面的深度学习网络——卷积神经网络(ConvolutionalNerualNetwork,简称CNN)具有特征提取和输出预测结果的功能,卷积神经网络一般由卷积层(ConvolutionalLayer)、激活函数、池化层(PoolingLayer)、全连接层(FullyConnectedLayer)、损失层(LossLayer)等组成,卷积神经网络的每一层都可以看作是一种特征,名字叫做特征图(featuremap)。对于表情和微表情的检测,现有深度学习技术经过了几个变迁,首先是包含人脸的整张图片输入包含卷积层、池化层、激活函数、全连接层和损失层的卷积神经网络,得到当前图片人脸所表现的表情属于哪一类和包含哪一个微表情的结果。2016年,赵凯莉在《DeepRegionandMulti-labelLearningforFacialActionUnitDetection》中提出了对人脸进行区块划分、分块卷积之后再合并的方法,提升了微表情检测的准确率。2017年,WeiLi、FarnazAbtahi和ZhigangZhu在《ActionUnitDetectionwithRegionAdaptationMulti-labelingLearningandoptimaltemperalfusing》中提出了根据AU单元和人脸区域相对应的位置关系的特性,有目的地提取VGG16网络的Conv12(ConvolutionalLayer12,即第12个卷积层)中对应于AU单元区域的部分,并采用长短期记忆网络(LongShot-TermMemory,简称LSTM)来将时序信息加入到模型训练的方法,进一步提升了AU检测的准确率。当上述方法实际上存在弊端,由于卷积神经网络池化层降采样的作用,高层特征存在感受野(receptivefiled),上述方法所提取Conv12层中数据所对应的区域相对于原始输入图片人脸上AU的位置并不能完全重合,这会带入噪声并对模型的最终准确率产生负向影响。
技术实现思路
针对上述缺陷,本专利技术提供了一种基于深度学习的表情分类及微表情检测的方法,解决了已有的人工特征方法或者深度学习方法准确率不高的技术问题。本专利技术基于深度学习,提出了新的深度学习模型,提高了微表情分类和微表情检测的准确率。为达到上述目的,本专利技术通过以下技术方案来具体实现:本专利技术提供了一种基于深度学习的表情分类及微表情检测的方法,该方法包括:将待测数据调整为预设格式的图像后基于OpenFace的方法对所述图像进行地标点定位检测,将所述图像和检测的地标点作为第一输入样本;基于预设的微表情与地标点位置对照表作为第二输入样本,微表情与地标点位置对照表包括微表情与所检测到的地标点之间的对应关系及检测每个微表情所需要的目标区域的大小和个数;将第一输入样本和第二输入样本使用随机最速下降法进行深度学习网络的训练,通过深度学习网络结构中新增的首层对图像进行目标区域剪裁,将剪裁后的图像分别同时进入深度学习网络结构中对应的各个层的进行训练,输出表情分类及微表情的检测结果。进一步的,将待测数据调整为预设格式的图像包括:待测数据为图像或视频;若待测数据为视频,将视频拆分为单帧图像。进一步的,基于OpenFace的方法对所述图像进行地标点定位检测,包括:基于OpenFace的方法对图像进行预设尺寸缩放,对缩放后的图像进行面部位置上地标点的检测,地标点以预设符号分隔,通过有序浮点数数组的方式存储。进一步的,深度学习网络结构依次包括:感兴趣区域层和子网络结构;所述子网络结构包括至少一个第一子网络结构和通过拼接层连接的第二子网络结构;所述第一子网络结构包括顺序连接的卷积层、激活层、批量标准化层和池化层共四层的重复以及全连接层、激活层和丢弃层共三层的重复,第二子网络结构包括全连接层、激活层和丢弃层共三层的重复。进一步的,通过深度学习网络结构中新增的首层对图像进行目标区域剪裁的步骤包括:感兴趣区域层基于第二输入样本对第一输入样本中的图像进行目标区域剪裁,得到各个微表情对应的子区域,并将数据输入子网络结构。进一步的,第一子网络结构运行的步骤包括:卷积层对感兴趣区域层输入的图像进行二维卷积运算,将输出的卷积层提取特征数据输入激活层;激活层对卷积层提取特征数据线性激活;线性激活后的激活数据输入批量标准化层;批量标准化层对当前批次的激活数据进行标准化后输入池化层;池化层通过最大值池化对数据降采样,将数据维度压缩降低后,将卷积层、激活层、批量标准化层和池化层运行的步骤按照预设次数重复;通过全连接层将重复完成的数据输入至激活层;激活层对数据线本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的表情分类及微表情检测的方法,其特征在于,该方法包括:将待测数据调整为预设格式的图像后基于OpenFace的方法对所述图像进行地标点定位检测,将所述图像和检测的地标点作为第一输入样本;基于预设的微表情与地标点位置对照表作为第二输入样本,微表情与地标点位置对照表包括微表情与所检测到的地标点之间的对应关系及检测每个微表情所需要的目标区域的大小和个数;将第一输入样本和第二输入样本使用随机最速下降法进行深度学习网络的训练,通过深度学习网络结构中新增的首层对图像进行目标区域剪裁,将剪裁后的图像分别同时进入深度学习网络结构中对应的各个层的进行训练,输出表情分类及微表情的检测结果。

【技术特征摘要】
1.一种基于深度学习的表情分类及微表情检测的方法,其特征在于,该方法包括:将待测数据调整为预设格式的图像后基于OpenFace的方法对所述图像进行地标点定位检测,将所述图像和检测的地标点作为第一输入样本;基于预设的微表情与地标点位置对照表作为第二输入样本,微表情与地标点位置对照表包括微表情与所检测到的地标点之间的对应关系及检测每个微表情所需要的目标区域的大小和个数;将第一输入样本和第二输入样本使用随机最速下降法进行深度学习网络的训练,通过深度学习网络结构中新增的首层对图像进行目标区域剪裁,将剪裁后的图像分别同时进入深度学习网络结构中对应的各个层的进行训练,输出表情分类及微表情的检测结果。2.如权利要求1所述的方法,其特征在于,将待测数据调整为预设格式的图像包括:待测数据为图像或视频;若待测数据为视频,将视频拆分为单帧图像。3.如权利要求1或2所述的方法,其特征在于,基于OpenFace的方法对所述图像进行地标点定位检测,包括:基于OpenFace的方法对图像进行预设尺寸缩放,对缩放后的图像进行面部位置上地标点的检测,地标点以预设符号分隔,通过有序浮点数数组的方式存储。4.如权利要求1所述的方法,其特征在于,深度学习网络结构依次包括:感兴趣区域层和子网络结构;所述子网络结构包括至少一个第一子网络结构和通过拼接层连接的第二子网络结构;所述第一子网络结构包括顺序连接的卷积层、激活层、批量标准化层和池化层共四层的重复以及全连接层、激活层和丢弃层共三层的重复,第二子网络结构包括全连接层、激活层和丢弃层共三层的重复。5.如权利要求1或4所述的方法,其特征在于,通过深度学习网络结构中新增的首层对图像进行目标区域剪裁的步骤包括:感兴趣区域层基于第二输入样本对第一输入样本中的图像进行目标区域剪裁,得到各个微表情对应的子区域,并将数据输入子网络结构。6.如权利要求4或5所述的方法,其特征在于,第一子网络结构运行的步骤包括:卷积层对感兴趣区域层输入的图像进行二维卷积运算,将输出的卷积层提取特征数据输入激活层;激活层对卷积层提取特征数据线性激活;线性激活后的激活数据输入批量标准化层...

【专利技术属性】
技术研发人员:陈东浩叶丹
申请(专利权)人:北京红云智胜科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1