当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于多模态序列融合的动作识别方法技术

技术编号:10662384 阅读:283 留言:0更新日期:2014-11-20 09:28
本发明专利技术公开了一种基于多模态序列融合的动作识别方法,包括以下步骤:获得原始视频多种模态下的信息,并进行预处理获取初始RGB图像序列及初始深度图像序列,以及获取骨架特征序列;对初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取初始深度图像序列上相应位置的第二人体区域外接矩形;在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的特征向量;根据得到的RGB-LBP、D-LBP特征向量序列,以及骨架特征序列,通过多视角判别模型来进行动作识别。本发明专利技术能够将多种模态的序列信息进行互补融合,能够有效提高动作识别准确率。

【技术实现步骤摘要】
一种基于多模态序列融合的动作识别方法
本专利技术涉及计算机视觉、人体动作识别领域,尤其涉及一种基于多模态序列融合的动作识别方法。
技术介绍
人体动作识别在智能视频监控、人机交互、视频检索等领域中具有广阔的应用前景,已逐渐成为计算机视觉领域的研究热点。现有技术中的很多研究工作主要是利用普通RGB摄像机获得的图像序列来进行动作识别,并在一些经典的数据库上验证了其有效性。然而,由于光照变化、人体外形的多样性、遮挡等因素的干扰,人体动作识别仍然是一项具有挑战性的工作。近年来,将深度图像序列引入人体动作识别领域成为了一个新兴的热点问题。这主要是由于深度摄像机的成本大大降低,尤其是微软推出的3D体感摄影机Kinect,其成本低廉、所摄取的图像分辨率高。与彩色图像相比,深度图像能直接反映物体表面的三维特征,且不受光照变化、阴影、环境变化等因素的干扰。此外,深度图像表示物体在3D空间中的坐标,可以很好的克服遮挡或重叠问题。人体骨架可以用来有效地表征人体区域及轮廓信息,它能反映出人体运动的轨迹,包含很多运动信息,骨架信息能够直接反映人体的位置信息,且不会受到光照、阴影、遮挡等因素的干扰。RGB信息、深度信息、骨架信息、热传感信息等分别代表着同一个场景的不同形式,通过将这些不同模态的信息融合进行序列建模,可以提升动作识别的准确率。但是由于不同模态的信息于不同的流形空间且值域不同,直接将其融合并不能得到最佳效果。所以,如何进一步多模态序列进行互补融合,是人体动作识别中亟待解决的问题。
技术实现思路
本专利技术提供了一种基于多模态序列融合的动作识别方法,本专利技术实现了RGB信息与深度信息的互补,显著地提高了动作识别的准确率,详见下文描述:一种基于多模态序列融合的动作识别方法,所述方法包括以下步骤:获得原始视频多种模态下的信息,并进行预处理。包括对原始视频的RGB图像序列和深度图像序列进行预处理,获取初始RGB图像序列及初始深度图像序列,以及获取骨架特征序列;对初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取初始深度图像序列上相应位置的第二人体区域外接矩形;在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的特征向量;根据步骤103中得到的RGB-LBP、D-LBP特征向量序列,以及步骤101中得到的骨架特征序列,通过多视角判别模型来进行动作识别。。所述根据RGB-LBP、D-LBP特征向量,以及骨架特征序列,通过多视角判别模型来进行动作识别的步骤具体为:(1)多视角判别模型的表示:多视角判别模型的条件概率模型可以表示为:其中,X是观测序列,Y是序列标记,H是隐状态变量,θ是权重向量且θ={θ1,θ2},θ1和θ2表示权重,T表示转置,φ(Y,X,H)是特征函数,表示由图模型中节点位置以及节点之间的关联而决定的序列特征,Z是归一化的分配函数,用来进行概率归一化。(2)多视角判别模型的学习:目标函数为:其中,Xi表示观测样例,Yi表示观测样例真实的标注,使得上式取得最小值的θ值,即是最优参数θ。(3)多视角判别模型的判断:在多视角判别模型参数已经确定之后,判断观测序列X的分类最优标记Y*,确定动作类别,本专利技术提供的技术方案的有益效果是:本方法根据得到的RGB-LBP、D-LBP特征向量,以及骨架特征序列,通过多视角判别模型的学习和判断来进行动作识别。本专利技术能够将RGB信息、深度信息和骨架信息进行互补,可以显著的提高动作识别的准确率。附图说明图1为基于多模态序列融合的动作识别方法的流程图;图2为LBP特征算法示意图;图3为多视角判别模型的示意图;具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面对本专利技术实施方式作进一步地详细描述。为了将多模态序列进行互补融合,提高动作识别的准确率,本专利技术实施例提供了一种基于多模态序列融合的动作识别方法,参见图1,详见下文描述:101:获得原始视频多种模态下的信息,并进行预处理。包括对原始视频的RGB图像序列和深度图像序列进行预处理,获取初始RGB图像序列及初始深度图像序列,以及获取骨架特征序列;对于同一动作序列,可以用不同模态进行表示,如RGB信息、深度信息、骨架信息、热传感信息等模态。本实验中选用RGB信息、深度信息和骨架信息三种模态。具体实现时,本专利技术实施例对此不做限制。本专利技术实施例首先采用参考文献[1]中的高斯滤波方法,对原始视频的RGB图像序列和深度图像序列进行预处理。为了减小背景对目标的干扰,再对深度图像序列进行进一步处理,若深度像素值大于阈值T1或小于阈值T2时,认为此像素值不是有效值,将其标记为0。其中,Dk(x,y)代表第k帧时,深度图像中像素(x,y)点处的深度值。阈值T1和阈值T2满足关系T1>T2,其具体数值可以根据实际情况来设定,在本实验中设置T1=3500,T2=2000。具体实现时,本专利技术实施例对此不做限制。至此,得到初始RGB图像序列及初始深度图像序列。本专利技术实施例采用KinectSDK工具[2]获取人体20个骨架点所对应的位置坐标,将其串联得到骨架特征序列,作为骨架信息模态。具体实现时,本专利技术实例对获取骨架特征的方式不做限制。102:对初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取初始深度图像序列上相应位置的第二人体区域外接矩形;由于特征检测是在每帧图像上遍历进行的,为此首先从初始RGB图像序列的每一帧中提取前景区域。由于本方法研究对象所处的环境比较理想,背景几乎无变化,因此可以采用最常用的背景差法来提取前景目标。背景差法实现简单、运算速度快,适用于摄像机静止的场景,并需要得到当前场景的静止背景图像。具体步骤为:1)获得当前场景中不包含目标对象的静止背景图像B;2)将当前帧(即第k帧)图像fk(x,y)与背景图像B进行差值运算,得到差分图像Ck(x,y),Ck(x,y)=|fk(x,y)-B|。3)对上述差分图像Ck(x,y)进行二值化,得到二值化图像Rk(x,y),其中阈值T3可以根据实际情况来设定,在本实验中设置T3=30。具体实现时,本专利技术实施例对此不做限制。4)对二值化图像Rk(x,y)进行形态学滤波方法,并通过连通性分析,最终检测和分割出第一人体区域外接矩形,同时提取深度图像序列上相应位置的第二人体区域外接矩形。其中,提取出的二值化图像Rk(x,y)可能会出现空洞、毛刺等现象,采用参考文献[3]中提出的形态学滤波方法,可以消除孤立噪声点并修复目标区域的空洞。再经过连通性分析,最终检测和分割出人体区域外接矩形,同时提取深度图像序列上相应位置的人体区域外接矩形。103:在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的特征向量;人体动作特征有多种提取和表示方法,常见的有梯度方向直方图特征(HistogramsofOrientedGradients,HOG)、光流直方图特征(HistogramofOpticalFlows,HOF)、局部二值模式(LocalBinaryPatterns,LBP)等。不失一般性的,本方法使用参考文献[4]中提出的LBP特征来描述人体动作视觉特征。具体提取方法如下:LBP是一种用来描述本文档来自技高网...
一种基于多模态序列融合的动作识别方法

【技术保护点】
一种基于多模态序列融合的动作识别方法,其特征在于,所述方法包括以下步骤:获得原始视频多种模态下的信息,并进行预处理,获取初始RGB图像序列、初始深度图像序列,以及获取骨架特征序列;对所述初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取所述初始深度图像序列上相应位置的第二人体区域外接矩形;在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的RGB‑LBP、D‑LBP特征向量序列;根据所述RGB‑LBP、D‑LBP特征向量序列,以及所述骨架特征序列,通过多视角判别模型来进行动作识别。

【技术特征摘要】
1.一种基于多模态序列融合的动作识别方法,其特征在于,所述方法包括以下步骤:获得原始视频多种模态下的信息,并进行预处理,获取初始RGB图像序列、初始深度图像序列,以及获取骨架特征序列;对所述初始RGB图像序列进行背景建模,通过得到的背景建模结果来提取第一人体区域外接矩形,同时提取所述初始深度图像序列上相应位置的第二人体区域外接矩形;在第一、第二人体区域外接矩形上分别提取人体动作特征,得到RGB模态和深度模态下的RGB-LBP、D-LBP特征向量序列;根据所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通过多视角判别模型来进行动作识别;其中,所述根据所述RGB-LBP、D-LBP特征向量序列,以及所述骨架特征序列,通过多视角判别模型来进行动作识别的步骤具体为:(1)所述多视角判别模型的表示:多视角判别模型的条件概率模型可以表示为:

【专利技术属性】
技术研发人员:刘安安苏育挺马莉
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1