一种基于深度序列的人体行为识别方法技术

技术编号:13306700 阅读:92 留言:0更新日期:2016-07-10 01:58
本发明专利技术公开了一种基于深度序列的人体行为识别方法,基于法线信息的LBP算子;空间金字塔方式组合LBP算子;组合LBP算子的稀疏表示;行为序列的分割与对齐;为获取深度图中反映不同人体行为表面的曲面特征,进一步提高人体行为识别的鲁棒性,根据深度图中人体结构的相似性及关联信息,定义了深度图中法向信息的LBP描述算子,该算子在细节上保持了人体行为曲面的几何特性,局部空间上提取了曲面的局部特征,并以此作为深度图中人体行为局部特征表示。全局上,基于字典学习的编码方法整合了细节信息,自适应时空金字塔和稀疏系数的池化处理保持住了人体曲面的局部空间结构关系,实现对三维人体行为的细节和整体特征描述。

【技术实现步骤摘要】

本专利技术涉及模式识别及计算机视觉领域,尤其涉及一种基于改进局部二值模式(LBP)与稀疏表示的人体行为识别方法。
技术介绍
人体行为识别在视频监控、医疗健康看护等领域已经具有广泛应用。但目前人体行为识别的研究主要集中在传统彩色图像视频上,由于彩色图像视频缺乏人体的三维空间信息,对行为特征的描述不够全面,很难处理遮挡、光照及行为外观变化的特征描述问题,因此其应用效果及范围具有一定局限性。随着图像获取技术的进步,深度图像获取越来越容易。深度图像相比传统的颜色图像能提供更多的人体表观和结构信息,对光照变化不敏感,因此在行为识别领域,引入深度信息,研究基于深度信息的人体特征表示与提取是人体行为识别的关键,已经引起人们的极大关注。但在深度数据中,迄今还没有一种有效的描述子能够准确的表示深度数据的特性,彩色图像中的一些描述算子(如SIFT)等算子直接平移到深度数据中并没有取得令人满意的结果。局部二值模式(LBP)是一种计算简单、非参数化的局部纹理模式描述算子,由于它对光照变化不敏感,是一种有效的纹理描述算子,它在二维图像特征表示与提取中获得了成功。已有研究将其应用在深度数据中但取得的效果同样不是十分理想。
技术实现思路
为获取深度图中反映不同人体行为表面的曲面特征,进一步提高人体行为识别的鲁棒性,根据深度图中人体结构的相似性及关联信息,定义了深度图中法向信息的LBP描述算子,该算子在细节上保持了人体行为曲面的几何特性,局部空间上提取了曲面的局部特征,并以此作为深度图中人体行为局部特征表示。全局上,基于字典学习的编码方法整合了细节信息,自适应时空金字塔和稀疏系数的池化处理保持住了人体曲面的局部空间结构关系,实现对三维人体行为的细节和整体特征描述。本专利技术主要涉及一种基于深度序列的人体行为识别方法,该方法为一种基于改进局部二值模式(LBP)与稀疏表示的人体行为识别方法,深度序列的描述符计算流程如图1,主要步骤如下:S1基于法线信息的LBP算子在模式识别中,LBP算子最早应用于二维人脸图像的识别,它在图像一个区域窗口内,以窗口的中心像素为阈值,将相邻若干个像素的灰度值与其进行比较,若邻域像素值大于中心像素值,则该像素点的位置被标记为1,否则标记为0。这样,一个区域窗口中便可产生一个二进制数(通常转换为十进制数),即得到该窗口中心像素点的LBP值,这个值反映了该区域的局部纹理信息。鉴于LBP算子在二维模式识别领域中的成功应用,本文将LBP算子推广到深度视频序列中,提出了描述深度视频中基于表面法向信息的LBP算子,这种LBP算子很好地描述曲面的曲率变化特性。由于深度序列看作是一个函数:这样便得到了由一系列的点(x,y,z,t)组成满足S(x,y,t,z)=f(x,y,t)-z=0的四维超平面。该超平面上点(x,y,z,t)的法线方向为:和传统梯度方向相比,法向量的方向与4D曲面的形状相关,法向量的方向分布能够比传统的梯度方向提供更多的几何信息,也能够更精确地表述四维超平面的几何信息。考虑到法线代表四维空间中的方向,基于原来LBP算子的构造思路,根据深度图中某一点法线与其邻域点法线间的角度关系定义该点的新的LBP算子:其中,Pc表示当前点即LBP邻域窗口的中心点,Nc表示点Pc位置的法线向量,Nn表示点Pc邻域中第n个点的法线向量,Angle(Nc,Nn)表示两个法向量间的角度度量关系,λ为一设定的阈值,其约束二值函数B(x)的取值。但这种LBP算子存在一个不足:它只覆盖了一个固定半径范围内的小区域,在这个区域内只能够取到一个正方形邻域点,这显然不能满足不同规格表面的需要。为了适应不同尺度的特征,对这种LBP算子进行了改进,用圆形邻域代替了正方形邻域,改进后的LBP算子允许在半径为r的圆形邻域内有任意多个像素点。从而得到了半径为r的圆形区域内含有n个采样点的LBP算子。S2空间金字塔方式组合LBP算子人体行为在视频序列的前后帧之间具有关联性,将相邻帧中某一点及其邻近点的LBP特征进行组合,使原始深度序列中的每个像素用他邻域信息组合成的超像素表示,这样能够全面描述相邻点之间的关联性和动态性,得到多维组合LBP特征来表示人体行为动态信息,提高行为特征的表示能力。为了提高组合LBP算子的尺度不变性,LBP算子的组合方式是采用空间金字塔的方式选取所需要的点,多维金字塔法组合方式能够捕获中心点局部领域内的多层表观信息,具有更好的鲁棒性。如图2,在点p所在的帧内,黑色圆形标记点p作为空间金字塔的第一层,四个菱形标记的点为金字塔的第二层,九个十字标记的点为第三层,这样在一帧内便取了14个点。然后在该帧的前后帧按照同样的方式取点,计算每一点的法向LBP特征,将这些LBP特征组合成一个向量,最终得到中心点p的LBP组合特征,该特征维度为42。若原始深度序列的维度为W×H×T,那么通过这种组合方式,原深度序列表示为一个矩阵,该矩阵的维度是42×W*H*T。S3组合LBP算子的稀疏表示根据上述方法,对深度序列每一帧的所有像素点都提取到一个LBP特征,进而也提取了组合LBP特征,然而得到的数据依然是一个序列,只不过这里已经将原始测量空间中的测量特征转换为二值特征。但是,这个二值特征与空间位置、时间位置是紧密相关的,如果直接用这个二值特征进行判别分析的话,会因为位置没有对齐产生很大的误差。为此,本方法首先使用基于字典的方法来解决这个问题,即通过训练样本学习一组字典,然后通过这个字典对所有样本进行规格化表示来消除这种误差。给定一个由C个类别的组合LBP特征表示的训练矩阵X=(X1,X2,...,XC),特征矩阵表示属于第i类的ni个深度序列的组合LBP特征连结在一起表示。通过下面优化模型可以求得训练样本的字典和稀疏表示系数。其中,为重构误差项,||Ai||1为稀疏约束项,D∈R42×K为稀疏字典,字典的第一维度42与组合LBP特征的维度相同,K为字典的第二维度即字典D的视觉词的总数,D的每一列称为视觉词,矩阵Ai为原始特种Xi相对于字典D的稀疏表示,λ是稀疏正则项。对于一个W×H×T维的深度视频序列,通过上述模型学习得到样本的组合LBP特征矩阵的字典和稀疏表示系数,以此稀疏表示系数作为组合特征的新的特征表示。这个系数相对于原来的底层特征,具有更好的判别性,但它是一个矩阵而不是向量,另外由于不同序列采集的帧数不同,导致这个矩阵的维度不统一,无法直接拿来进行分类度量,为此需要首先对行为视频序列进行分割,保证分割后的本文档来自技高网...

【技术保护点】
一种基于深度序列的人体行为识别方法,其特征在于:该方法为一种基于改进局部二值模式(LBP)与稀疏表示的人体行为识别方法,深度序列的描述符计算流程主要步骤如下:S1基于法线信息的LBP算子在模式识别中,LBP算子最早应用于二维人脸图像的识别,它在图像一个区域窗口内,以窗口的中心像素为阈值,将相邻若干个像素的灰度值与其进行比较,若邻域像素值大于中心像素值,则该像素点的位置被标记为1,否则标记为0;这样,一个区域窗口中便可产生一个二进制数(通常转换为十进制数),即得到该窗口中心像素点的LBP值,这个值反映了该区域的局部纹理信息;鉴于LBP算子在二维模式识别领域中的成功应用,本文将LBP算子推广到深度视频序列中,提出了描述深度视频中基于表面法向信息的LBP算子,这种LBP算子很好地描述曲面的曲率变化特性;由于深度序列看作是一个函数:这样便得到了由一系列的点(x,y,z,t)组成满足S(x,y,t,z)=f(x,y,t)‑z=0的四维超平面;该超平面上点(x,y,z,t)的法线方向为:N=▿S=(∂z∂x,∂z∂y,∂z∂t,-1)T;]]>和传统梯度方向相比,法向量的方向与4D曲面的形状相关,法向量的方向分布能够比传统的梯度方向提供更多的几何信息,也能够更精确地表述四维超平面的几何信息;考虑到法线代表四维空间中的方向,基于原来LBP算子的构造思路,根据深度图中某一点法线与其邻域点法线间的角度关系定义该点的新的LBP算子:LBP(Pc)=Σn=07B(Angle(Nn-Nc))·2nB(x)=0ifx<λ1else,]]>其中,Pc表示当前点即LBP邻域窗口的中心点,Nc表示点Pc位置的法线向量,Nn表示点Pc邻域中第n个点的法线向量,Angle(Nc,Nn)表示两个法向量间的角度度量关系,λ为一设定的阈值,其约束二值函数B(x)的取值;但这种LBP算子存在一个不足:它只覆盖了一个固定半径范围内的小区域,在这个区域内只能够取到一个正方形邻域点,这显然不能满足不同规格表面的需要;为了适应不同尺度的特征,对这种LBP算子进行了改进,用圆形邻域代替了正方形邻域,改进后的LBP算子允许在半径为r的圆形邻域内有任意多个像素点;从而得到了半径为r的圆形区域内含有n个采样点的LBP算子;S2空间金字塔方式组合LBP算子人体行为在视频序列的前后帧之间具有关联性,将相邻帧中某一点及其邻近点的LBP特征进行组合,使原始深度序列中的每个像素用他邻域信息组合成的超像素表示,这样能够全面描述相邻点之间的关联性和动态性,得到多维组合LBP特征来表示人体行为动态信息,提高行为特征的表示能力;为了提高组合LBP算子的尺度不变性,LBP算子的组合方式是采用空间金字塔的方式选取所需要的点,多维金字塔法组合方式能够捕获中心点局部领域内的多层表观信息,具有更好的鲁棒性;如图2,在点p所在的帧内,黑色圆形标记点p作为空间金字塔的第一层,四个菱形标记的点为金字塔的第二层,九个十字标记的点为第三层,这样在一帧内便取了14个点;然后在该帧的前后帧按照同样的方式取点,计算每一点的法向LBP特征,将这些LBP特征组合成一个向量,最终得到中心点p的LBP组合特征,该特征维度为42;若原始深度序列的维度为W×H×T,那么通过这种组合方式,原深度序列表示为一个矩阵,该矩阵的维度是42×W*H*T;S3组合LBP算子的稀疏表示根据上述方法,对深度序列每一帧的所有像素点都提取到一个LBP特征,进而也提取了组合LBP特征,然而得到的数据依然是一个序列,只不过这里已经将原始测量空间中的测量特征转换为二值特征;但是,这个二值特征与空间位置、时间位置是紧密相关的,如果直接用这个二值特征进行判别分析的话,会因为位置没有对齐产生很大的误差;为此,本方法首先使用基于字典的方法来解决这个问题,即通过训练样本学习一组字典,然后通过这个字典对所有样本进行规格化表示来消除这种误差;给定一个由C个类别的组合LBP特征表示的训练矩阵X=(X1,X2,...,XC),特征矩阵表示属于第i类的ni个深度序列的组合LBP特征连结在一起表示;通过下面优化模型可以求得训练样本的字典和稀疏表示系数;minD,A1CΣi=1C(12||Xi-DAi||22+λ||Ai||1),]]>s.t.dkTdk≤1,∀k=1,...,K]]>其中,为重构误差项,||Ai||1为稀疏约束项,D∈R42×K为稀疏字典,字典的第一维度42与组合LBP特征的维度相同,K为字典的第二维度即字典D的视觉词的总数,D的每一列称为视觉词,矩阵Ai为原始特种Xi相对于字典D的稀疏表示,λ是稀疏正则项...

【技术特征摘要】
1.一种基于深度序列的人体行为识别方法,其特征在于:该方法为一种基于改进局部
二值模式(LBP)与稀疏表示的人体行为识别方法,深度序列的描述符计算流程主要步骤如
下:
S1基于法线信息的LBP算子
在模式识别中,LBP算子最早应用于二维人脸图像的识别,它在图像一个区域窗口内,
以窗口的中心像素为阈值,将相邻若干个像素的灰度值与其进行比较,若邻域像素值大于
中心像素值,则该像素点的位置被标记为1,否则标记为0;这样,一个区域窗口中便可产生
一个二进制数(通常转换为十进制数),即得到该窗口中心像素点的LBP值,这个值反映了该
区域的局部纹理信息;
鉴于LBP算子在二维模式识别领域中的成功应用,本文将LBP算子推广到深度视频序列
中,提出了描述深度视频中基于表面法向信息的LBP算子,这种LBP算子很好地描述曲面的
曲率变化特性;
由于深度序列看作是一个函数:这样便得到了由一系列的点(x,
y,z,t)组成满足S(x,y,t,z)=f(x,y,t)-z=0的四维超平面;该超平面上点(x,y,z,t)的法
线方向为:
N = ▿ S = ( ∂ z ∂ x , ∂ z ∂ y , ∂ z ∂ t , - 1 ) T ; ]]>和传统梯度方向相比,法向量的方向与4D曲面的形状相关,法向量的方向分布能够比
传统的梯度方向提供更多的几何信息,也能够更精确地表述四维超平面的几何信息;考虑
到法线代表四维空间中的方向,基于原来LBP算子的构造思路,根据深度图中某一点法线与
其邻域点法线间的角度关系定义该点的新的LBP算子:
L B P ( P c ) = Σ n = 0 7 B ( A n g l e ( N n - N c ) ) · 2 n B ( x ) = 0 i f x < λ 1 e l s e , ]]>其中,Pc表示当前点即LBP邻域窗口的中心点,Nc表示点Pc位置的法线向量,Nn表示点Pc邻域中第n个点的法线向量,Angle(Nc,Nn)表示两个法向量间的角度度量关系,λ为一设定的
阈值,其约束二值函数B(x)的取值;
但这种LBP算子存在一个不足:它只覆盖了一个固定半径范围内的小区域,在这个区域
内只能够取到一个正方形邻域点,这显然不能满足不同规格表面的需要;为了适应不同尺
度的特征,对这种LBP算子进行了改进,用圆形邻域代替了正方形邻域,改进后的LBP算子允
许在半径为r的圆形邻域内有...

【专利技术属性】
技术研发人员:孙艳丰张坤胡永利
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1