一种基于多尺度时序建模的维度情感识别方法技术

技术编号:11062155 阅读:115 留言:0更新日期:2015-02-19 09:12
本发明专利技术公开了一种基于多尺度时序建模的维度情感识别方法,该方法包括以下步骤:对于视频序列中的每帧图像进行人脸检测及跟踪,并提取人脸关键点作为第一类组人脸特征;提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中像素的灰度值作为第二、三、四类组人脸特征;根据单位时间段t内多帧图像的四类组人脸特征进行维度情感初步预测;根据连续N个单位时间段t的情感初步预测结果用线性回归器进行时序及模态融合,输出视频序列的情感预测值。本发明专利技术方法对视频序列信号进行不同尺度的时序建模,实现了序列中每一时序单元的精确预测。本发明专利技术适用于视频中人脸信号的情感识别,具有实时性好、并能够大幅度提高识别精度等优点。

【技术实现步骤摘要】
一种基于多尺度时序建模的维度情感识别方法
本专利技术属于视频信号处理领域,具体涉及一种基于多尺度时序建模的维度情感识别方法,并以此来提高连续维度的情感识别的精度。
技术介绍
近年来,国内外研究人员对连续维度情感识别进行了大量的研究工作,提出了许多用于情感识别的有效方法。这些方法从处理策略上可以分为基于静态分类器的检测方法和基于动态分类器的检测方法。基于静态分类器的检测方法,多利用支持向量机(SVM)、神经网络、Boosting等,且这类分类器多为判别式模型。由于具有较强的区分能力,因此广泛应用于情感状态识别领域,但这种方法忽略了连续维度情感中不同时刻情感相互联系的事实,也即忽视了时序建模在分类模型中的关键作用。情感状态是一个逐渐变化的、平滑的过程,有着很强的上下文相关性,充分考虑情感状态的时序信息将有助于分类精度的提升。基于动态分类器的检测方法大多采用基于隐马尔科夫(HMM)的分类模型,HMM在序列上下文信息建模方面有着突出的优势,因而对于时间序列,能够较好的融合序列信号的上下文信息,融合一定的情感历史信息。然而,HMM只能在单一时间尺度上进行时序建模,且时序建模的范围有限,并不能完全反应情感时序信息在情感识别中的关键作用。本专利技术利用深度置信网络实现较小尺度的时序建模,同时利用线性回归进行多模态及时序的同时融合,实现了较大尺度上的时序建模,进而依靠两级不同尺度上的时序建模,实现了维度情感的精确预测。
技术实现思路
为了解决上述现有技术中存在的连续语音序列的情感信息识别问题,本专利技术提出了一种基于多尺度时序建模的维度情感识别方法。本专利技术提出的一种基于多尺度时序建模的维度情感识别方法,包括以下步骤:步骤1,对于视频序列中的每帧图像进行人脸检测及跟踪,并根据检测或跟踪得到的人脸区域图像提取对应的人脸关键点作为第一类组人脸特征;步骤2,根据所述步骤1得到的人脸关键点,对于相应的人脸区域图像进行人脸校正,分别提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中所有像素的灰度值作为第二、三、四类组人脸特征;步骤3,分别提取单位时间段t内多帧图像的四类组人脸特征,并将提取得到的四类组人脸特征分别输入到具有时序池化层的深度置信网络中进行维度情感初步预测,得到单位时间段t内视频序列的情感初步预测结果;步骤4,根据所述步骤3提取连续N个单位时间段t内的四类组人脸特征并分别进行情感初步预测,根据连续N个单位时间段t的情感初步预测结果训练得到情感预测线性回归器,所述情感预测线性回归器用于同时融合上述四类组人脸特征在同一时间段内的情感预测值;步骤5,对于连续N个单位时间段t内的测试视频序列,根据所述步骤1-3,得到连续N个单位时间段t内测试视频序列的情感初步预测结果,将得到的连续N个单位时间段t内测试视频序列的情感初步预测结果输入至线性回归器进行时序及模态融合,得到每单位时间段t内测试视频序列的情感预测值。本专利技术在视频序列中,采用多层时序建模,实现了两个不同实现粒度上的有效建模,同时融合了多种视觉特征,最终达到了对连续维度情感的有效预测。附图说明图1是本专利技术基于多尺度时序建模的维度情感识别方法的流程图。图2是本专利技术步骤1的流程示意图。图3是本专利技术步骤2的流程示意图图4是本专利技术采用的具有时序池化层的深度置信网络的结构示意图。图5是本专利技术步骤5的流程示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。需要说明的是,在附图或说明书描述中,相似或相同的部分都使用相同的图号。附图中绘示或描述的实现方式,为所属
中普通技术人员所知的形式。应该指出,所描述的实例仅仅视为说明的目的,而不是对本专利技术的限制。图1是本专利技术基于多尺度时序建模的维度情感识别方法的流程图,如图1所示,所述基于多尺度时序建模的维度情感识别方法包括以下步骤:步骤1,对于视频序列中的每帧图像进行人脸检测及跟踪,并根据检测或跟踪得到的人脸区域图像提取对应的人脸关键点作为第一类组人脸特征;如图2所示,所述步骤1中,首先对于视频序列中的第一帧图像进行人脸检测,得到人脸检测结果(即人脸区域图像)后对于后续每帧图像进行人脸跟踪,跟踪时停止进行人脸检测;但如果人脸跟踪失败,则需要对于当前帧重新进行人脸检测寻找人脸。在得到每帧图像的人脸检测或跟踪结果(即人脸区域图像)后,提取得到每帧人脸区域图像对应的人脸关键点,并将得到的人脸关键点作为第一类组人脸特征,用于描述人脸的形态及头部运动信息。在本专利技术一实施例中,采用Haar特征及AdaBoost分类器进行人脸检测;采用均值漂移算法进行人脸跟踪;由ASM特征点提取得到人脸的关键点,其中,所述人脸关键点包括眼球点及眼角点、鼻唇中心点、嘴角点三部分。在本专利技术一实施例中,在所述步骤1得到人脸关键点之后,还对每帧人脸区域图像的人脸关键点的坐标值进行归一化,即将每帧人脸区域图像的人脸关键点的坐标值减去所有人脸关键点的坐标均值;之后采用主成分分析法对于所述人脸关键点的坐标值进行降维,降维之后通过白化处理使所有特征具有单位方差,(以下简称白化处理),其中,降维后数据的能量保持在降维前数据能量的90%。数据的白化处理是为了使降维后的所有特征都有相同的方差且特征之间的相关性较低。具体做法为:求得降维后数据的每一维除以各自维度上的标准差,从而使降维后的数据的每一维的方差为1。步骤2,根据所述步骤1得到的人脸关键点,对于相应的人脸区域图像进行人脸校正,分别提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中所有像素的灰度值作为第二、三、四类组人脸特征;如图3所示,该步骤中,首先依次对于人脸区域图像进行人脸校正处理,具体包括旋转校正、尺度缩放、灰度化和归一化,将所述人脸区域图像中所有像素的灰度值作为第二类组人脸特征;然后分别在经过人脸校正后的人脸区域图像上,根据人脸关键点提取人脸嘴部区域以及人脸眼睛区域,对于所述人脸嘴部区域和人脸眼睛区域进行大小归一化和灰度归一化后,将所述人脸嘴部区域和人脸眼睛区域内所有像素的灰度值分别作为第三组和第四类组人脸特征。具体地,所述步骤2进一步包括以下步骤:步骤21,根据所述人脸关键点中左、右眼睛眼角的关键点进行连线,得到眼角连线与水平线之间的夹角,根据所述夹角对于所述人脸区域图像进行旋转,使所述夹角变为0度;步骤22,对于旋转后的人脸区域图像进行尺度缩放,使所述眼角连线的长度为M个像素,其中,M可取为50-100;步骤23,根据左眼角关键点的位置对于经过尺度缩放的人脸区域图像进行裁剪,以使得到的人脸区域图像达到第一预定大小;在本专利技术一实施例中,所述第一预定大小为2Mx2M,且左眼角关键点的位置为横纵坐标分别为0.8M和0.6M。步骤24,对于裁剪得到的人脸区域图像进行灰度化,并将所述人脸区域图像中每个像素的灰度值减去所述人脸区域图像的像素灰度值均值,并对于归一化后的人脸区域图像的像素灰度值进行主成分分析降维和白化处理,降维后的特征能量保持在降维前特征总能量的80%,将降维后的人脸区域图像的所有像素灰度值作为第二类组人脸特征;步骤25,根据嘴部关键点的位置,从归一化后的人脸区域图像中提取得到人脸嘴部区域图像,并将所述人脸嘴部区域图像归一化至第二预定大小,在本本文档来自技高网
...
一种基于多尺度时序建模的维度情感识别方法

【技术保护点】
一种基于多尺度时序建模的维度情感识别方法,其特征在于,该方法包括以下步骤:步骤1,对于视频序列中的每帧图像进行人脸检测及跟踪,并根据检测或跟踪得到的人脸区域图像提取对应的人脸关键点作为第一类组人脸特征;步骤2,根据所述步骤1得到的人脸关键点,对于相应的人脸区域图像进行人脸校正,分别提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中所有像素的灰度值作为第二、三、四类组人脸特征;步骤3,分别提取单位时间段t内多帧图像的四类组人脸特征,并将提取得到的四类组人脸特征分别输入到具有时序池化层的深度置信网络中进行维度情感初步预测,得到单位时间段t内视频序列的情感初步预测结果;步骤4,根据所述步骤3提取连续N个单位时间段t内的四类组人脸特征并分别进行情感初步预测,根据连续N个单位时间段t的情感初步预测结果训练得到情感预测线性回归器,所述情感预测线性回归器用于同时融合上述四类组人脸特征在同一时间段内的情感预测值;步骤5,对于连续N个单位时间段t内的测试视频序列,根据所述步骤1‑3,得到连续N个单位时间段t内测试视频序列的情感初步预测结果,将得到的连续N个单位时间段t内测试视频序列的情感初步预测结果输入至线性回归器进行时序及模态融合,得到每单位时间段t内测试视频序列的情感预测值。...

【技术特征摘要】
1.一种基于多尺度时序建模的维度情感识别方法,其特征在于,该方法包括以下步骤:步骤1,对于视频序列中的每帧图像进行人脸检测及跟踪,并根据检测或跟踪得到的人脸区域图像提取对应的人脸关键点作为第一类组人脸特征;步骤2,根据所述步骤1得到的人脸关键点,对于相应的人脸区域图像进行人脸校正,分别提取人脸区域图像、人脸嘴部区域图像和人脸眼睛区域图像中所有像素的灰度值作为第二、三、四类组人脸特征;步骤3,分别提取单位时间段t内多帧图像的四类组人脸特征,并将提取得到的四类组人脸特征分别输入到具有时序池化层的深度置信网络中进行维度情感初步预测,得到单位时间段t内视频序列的情感初步预测结果;步骤4,根据所述步骤3提取的连续N个单位时间段t内的四类组人脸特征分别进行情感初步预测,根据连续N个单位时间段t内的情感初步预测结果训练得到情感预测线性回归器,所述情感预测线性回归器用于同时融合上述四类组人脸特征在同一时间段内的情感预测值;步骤5,对于连续N个单位时间段t内的测试视频序列,根据所述步骤1-3,得到连续N个单位时间段t内测试视频序列的情感初步预测结果,将得到的连续N个单位时间段t内测试视频序列的情感初步预测结果输入至所述情感预测线性回归器进行时序及模态融合,得到每单位时间段t内测试视频序列的情感预测值。2.根据权利要求1所述的方法,其特征在于,所述步骤1中,首先对于视频序列中的第一帧图像进行人脸检测,得到人脸区域图像后对于后续每帧图像进行人脸跟踪,跟踪时停止进行人脸检测;但如果人脸跟踪失败,则对于当前帧重新进行人脸检测寻找人脸。3.根据权利要求1所述的方法,其特征在于,所述步骤1中,采用Haar特征及AdaBoost分类器进行人脸检测;采用均值漂移算法进行人脸跟踪;根据ASM特征点提取得到人脸的关键点。4.根据权利要求1所述的方法,其特征在于,所述人脸关键点包括眼球点及眼角点、鼻唇中心点、嘴角点。5.根据权利要求1所述的方法,其特征在于,在所述步骤1得到人脸关键点之后,还对每帧人脸区域图像的人脸关键点的坐标值进行归一化,之后采用主成分分析法对于所述人脸关键点的坐...

【专利技术属性】
技术研发人员:陶建华巢林林杨明浩
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1