一种基于李群论的多模态情感识别方法技术

技术编号:8413352 阅读:359 留言:1更新日期:2013-03-14 02:15
本发明专利技术公开了一种基于李群论的多模态情感识别方法,包括以下步骤:获取视频,并提取视频帧中图像区域的高斯型特征描述子,基于高斯型特征描述子对视频中的图像区域进行跟踪,根据视频子序列构建ARMA模型获取ARMA模型间的距离,根据ARMA模型之间的距离构建核函数,并进行情感表达分类,根据人体、脸部和手部的情感类别概率对人进行情感识别。本发明专利技术根据视频中所包含的人体姿态运动信息、手势和脸部表情信息来判断人的情感状态,是一个将视频数据映射到人体运动特征、手势特征和脸部表情特征,再从人体运动特征空间和脸部表情特征映射到状态空间的过程,并提出利用李群论进行多模态情感识别,提高模型进行情感识别的精确性。

【技术实现步骤摘要】

本专利技术属于情感识别领域,更具体地,涉及。
技术介绍
现有的情感识别方法,通产包括人体、脸部等对象的跟踪、基于图像的情感分类、决策级融合等步骤。 对象跟踪从视频中跟踪目标得到它在每一帧中的位置。Ying Wu等使用两层的马尔科夫场来表示人体特征,进行人体跟踪。Dalal和Triggs采用方向梯度直方图来描述人的轮廓,通过使用不同位置和分辨率的窗口从图像中梯度方向直方图组合成特征向量,然后将特征向量输入支持向量机分类检测出人体并跟踪。Qiang Zhu等对Dalal等的方法进行改进,在计算方向梯度直方图时使用可变大小的块代替前者固定大小的块,使得性能有所改善。Pfinder系统通过特定的姿势分析出脸部、手、脚等位置,对每个区域用空间位置和颜色建模,然后用颜色对这些区域进行跟踪。其中如何抽取图像特征,建立跟踪模版,对跟踪对象进行准确跟踪是情感识别中一个重要问题。情感模式挖掘从时间序列中挖掘出代表基本情感的运动特征模式。目前,从时间序列中进行数据挖掘有两类方法一类是先对时间序列提取更高级的特征向量,再对特征向量进行分析。如Daniel Weinland等人提出的行为识别方法。但是,提取高层特征的过程通常伴随着信息的丢失,寻找一种合适的高层特征也需要先验知识。另一类方法是采用面向时间序列的机器学习方法,直接对时间序列进行挖掘,主要有隐式马尔科夫模型等方法。但是人体运动特征中的情感模式比较隐蔽,如何恰当地设计模型及其度量,是情感识别的一个难点。
技术实现思路
针对现有技术的缺陷,本专利技术的目的在于提供,其根据视频中所包含的人体姿态运动信息、手势和脸部表情信息来判断人的情感状态,是一个将视频数据映射到人体运动特征、手势特征和脸部表情特征,再从人体运动特征空间和脸部表情特征映射到状态空间的过程,并提出利用李群论进行多模态情感识别,提高模型进行情感识别的精确性。为实现上述目的,本专利技术提供了,包括以下步骤步骤一,获取视频,并提取视频帧中图像区域的高斯型特征描述子,包括下述子步骤(I. I)对于图像区域中的每个像素点而言,计算一个d维特征向量F (X,y),该特征向量厂= G, Β,χ,μ, | ..,|,| ν|, φχ2+1'2],其中d为正整数,R, G, B是像素点的颜色信息,X,y是像素点在水平和垂直方向的位置信息,|lx|,I Iy I分别是像素点在水平方向和垂直方向的梯度信息,该图像区域所有像素点的特征向量构成图像的特征向量集合;(I. 2)确定该图像区域对应的均值d维向量μ和协方差d维方阵,其中,协方差矩阵权利要求1.,其特征在于,包括以下步骤 步骤一,获取视频,并提取视频帧中图像区域的高斯型特征描述子,包括下述子步骤 (I. I)对于图像区域中的每个像素点而言,计算一个d维特征向量F(x,y),该特征向量2.根据权利要求I所述的多模态情感识别方法,其特征在于,步骤(I.3)具体为,利用Cholesky分解将矩阵E分解成一个下三角矩阵P和上三角矩阵Pt的乘积,即E = PPt,且任何一个图像区域的协方差矩阵E对应着一个下三角矩阵P,其后,利用得到的下三角矩阵P和步骤(1.2)中得到的均值d维向量U,构建该图像区域的高斯型特征描述子3.根据权利要求I所述的多模态情感识别方法,其特征在于,步骤(2.3)具体为,确定脸部区域、手部区域和人体区域的高斯型特征描述子与跟踪模版之间的距离,dit=| I Iog(Mi-1Mt) I |,其中Mi是在第i帧中跟踪的脸部区域、手部区域和人体区域的高斯型特征描述子,Mt是跟踪模版,log ()表示矩阵对数,Il Il表示向量求模运算。4.根据权利要求I所述的多模态情感识别方法,其特征在于,步骤三包括下述子步骤 (3. I)对于视频子序列中的每一帧提取PHOG特征向量f (t),其维数为a ; (3. 2)根据PHOG特征向量f(t)构建视频子序列对应的ARMA模型 (3. 3 )对ARMA模型的参数求解。5.根据权利要求4所述的多模态情感识别方法,其特征在于,步骤(3.2)具体采用以下公式 j f(t)=Cz(t)+vv(t) [z(t+l )=Az(t)+v(t) 其中,t表示时间,C是a*b维的观测矩阵,z (t)是b维的隐状态向量,A是b*b维的转移矩阵,,w(t)和v(t)是干扰噪声组件,其分别服从均值为O、协方差矩阵分别为R和Q的正态分布。6.根据权利要求4所述的多模态情感识别方法,其特征在于,步骤(3.3)具体为,对于给定的视频子序列,视频子序列的a*b维特征矩阵Gf = ,Gt=LW7代表奇异值分解。其中,Zi = ,(Zi )T是Zi 的伪逆矩阵,v「z Ui)-Az (tH)。7.根据权利要求I所述的多模态情感识别方法,其特征在于,ARMA模型之间的距离度量满足对称性,正定型和三角不等性这度量函数的三个属性。8.根据权利要求I所述的多模态情感识别方法,其特征在于,情感状态包括愤怒、悲 伤、害怕、高兴、喜爱、惊讶、厌恶、害羞。全文摘要本专利技术公开了,包括以下步骤获取视频,并提取视频帧中图像区域的高斯型特征描述子,基于高斯型特征描述子对视频中的图像区域进行跟踪,根据视频子序列构建ARMA模型获取ARMA模型间的距离,根据ARMA模型之间的距离构建核函数,并进行情感表达分类,根据人体、脸部和手部的情感类别概率对人进行情感识别。本专利技术根据视频中所包含的人体姿态运动信息、手势和脸部表情信息来判断人的情感状态,是一个将视频数据映射到人体运动特征、手势特征和脸部表情特征,再从人体运动特征空间和脸部表情特征映射到状态空间的过程,并提出利用李群论进行多模态情感识别,提高模型进行情感识别的精确性。文档编号G06K9/62GK102968643SQ20121046629公开日2013年3月13日 申请日期2012年11月16日 优先权日2012年11月16日专利技术者王天江, 刘芳, 许春燕, 杨勇, 龚立宇, 邵光普, 舒禹程, 曹守刚 申请人:华中科技大学本文档来自技高网...

【技术保护点】
一种基于李群论的多模态情感识别方法,其特征在于,包括以下步骤:步骤一,获取视频,并提取视频帧中图像区域的高斯型特征描述子,包括下述子步骤:(1.1)对于图像区域中的每个像素点而言,计算一个d维特征向量F(x,y),该特征向量F(x,y)=[R,G,B,x,y,|Ix|,|Iy|,Ix2+Iy2],其中d为正整数,R,G,B是像素点的颜色信息,x,y是像素点在水平和垂直方向的位置信息,|Ix|,|Iy|分别是像素点在水平方向和垂直方向的梯度信息,该图像区域所有像素点的特征向量构成图像的特征向量集合;(1.2)确定该图像区域对应的均值d维向量μ和协方差d维方阵,其中协方差矩阵Fk是图像区域中第k个像素点的特征向量,n是图像区域内像素点的总和,T表示矩阵的转置。(1.3)基于步骤(1.1)和(1.2)的结果并结合李群论构建高斯型特征描述子;步骤二,基于步骤一中得到的高斯型特征描述子,对视频中的图像区域进行跟踪,包括下述子步骤:(2.1)在视频的第一帧中选取脸部区域、手部区域和人体区域;(2.2)根据选取的脸部区域、手部区域和人体区域结合高斯型特征描述子构建跟踪模版;(2.3)根据构建的跟踪模版,利用粒子滤波方法对脸部区域、手部区域和人体区域进行跟踪,根据跟踪结果更新跟踪模版,并记录跟踪结果,以得到脸部区域、手部区域和人体区域对应的视频子序列X,该视频子序列的长度为b;;步骤三,根据步骤二得到的视频子序列构建ARMA模型;步骤四,获取ARMA模型间的距离;具体包括以下子步骤:(4.1)根据ARMA模型的参数获取估计观测矩阵ObT=[CT,(CA)T,(CA2)T,...,(CAb)T];(4.2)对于任何两个视频子序列对应的观测正交矩阵C1和C2,约束L为正定矩阵,在任何两个ARMA模型之间最短的欧氏距离可以表示为:D(X1,X2)2=minM||(C1?C2L)T(C1?C2L)||F=minM||C1TC1?C1TC2L?LTC2TC1+LTC2TC2L||F=minM||I?C1TC2L?LTC2TC1+LT||LF其中,‖‖F代表Frobenius矩阵范式,I表示单位矩阵。(4.3)根据拉格朗日乘子法获得L=C2TC1,即ARMA模型之间的距离可表示为:D(X1,X2)2=||I?LTL||F;步骤五,根据ARMA模型之间的距离构建核函数,并进行情感表达分类,具体包括以下子步骤:(5.1)构建核函数K(X1,X2)=exp(?γD(X1,,X2)),其中γ是缩放常量;(5.2)基于此核函数,并利用SVM分类器,对人体、脸部和手部区域对应的视频子序列分别进行分类,以分别产生人体、脸部和手部的情感类别概率;步骤六,根据人体、脸部和手部的情感类别概率对人进行情感识别,具体包括以下子步骤:(6.1)SVM根据人体、脸部和手部的情感类别概率对每种情感状态得到一个后验概率,用pmn表示,其中m=1,2,3分别代表人体特征、手部特征和面部表情,n=1,2,…8分别代表不同的情感状态;(6.2)根据后验概率利用加权决策准则确定最终的情感状态,具体为,加权准则分别对每种情感状态由三种特征得到的概率求加权平均值,取加 权平均值最大的情感状态作为最终输出的情感状态,具体公式如下:f=argmaxn(Σm=1,2,3wmpmn)其中用w1、w2和w3分别表示人体运动特征、声音特征和面部表情对应的权值,f最大的情感状态作为最终输出的情感状态。FDA00002417487800012.jpg,FDA00002417487800013.jpg...

【技术特征摘要】

【专利技术属性】
技术研发人员:王天江刘芳许春燕杨勇龚立宇邵光普舒禹程曹守刚
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有1条评论
  • 来自[北京市联通] 2014年12月09日 22:26
    在数学中李群Liegroup是具有群结构的实流形或者复流形并且群中的加法运算和逆元运算是栁形中的解析映射李群在数学分析物理和几何中都有非常重要的作用
    0
1