基于核稀疏编码的人体行为识别方法技术

技术编号:13672479 阅读:75 留言:0更新日期:2016-09-07 20:46
本发明专利技术公开了一种基于核稀疏编码的人体行为识别方法,属于数字图像处理技术领域。本发明专利技术首先将输入视频分成固定长度且相互重叠的视频段,再对每个视频段提取梯度与光流特征协方差或者形状特征协方差,并采用对称正定矩阵降维方法对协方差矩阵进行降维。在Stein核的基础上,提出一种稀疏最大化的对阵正定矩阵空间字典学习,并将黎曼流形嵌入再生核希尔伯特空间提出一种黎曼稀疏求解器。本发明专利技术用于视频的人体行为识别,处理简单,计算复杂度低,对行为差异、视角变化、低分辨率具有很好的鲁棒性。

【技术实现步骤摘要】

本专利技术属于数字图像处理
,涉及计算机视觉、模式识别等相关理论知识,尤其是基于协方差矩阵的人体行为识别。
技术介绍
人体行为识别是计算机视觉领域的研究热点和难点,其核心是利用计算机视觉技术自动从视频序列中检测、跟踪、识别人并对其行为进行理解和描述。人体运动分析和行为识别方法是人体行为理解的核心内容,主要包括对视频人体检测,跟踪运动人体,获取人体行为的相关参数,最终达到理解人体行为的目的。人体行为识别方法主要运用于智能监控系统,主动、实时地分析视频中人体行为,及时报告可疑行为;基于内容的视频检索,对视频内容进行分析和理解,简历结构和索引;还广泛应用于人体交互、机器人、智能房间和看护中心。人体行为识别主要由人体行为表示和人体行为识别分类两个基本步骤构成,它们对人体行为识别率有显著的影响。当前人体行为识别方法主要有:一):基于时空兴趣点云的行为识别。从不同的时间尺度提取兴趣点积累成点云,并避免对背景和静态前景检测。采用近邻分类或者支撑向量机SVM进行识别分类。该方式可以捕获平滑运动,对视角改变具有鲁棒性,遮挡处理代价小,详见文献“Matteo Bregonzio,Shaogang Gong and Tao Xiang.Recognising Action as Clouds of Space-Time Interest Points.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2009.”;二):基于深度轨迹的行为识别。对每帧像素进行深度采样,并利用深度光流场中位移信息跟踪特征点。基于一机遇运动边界直方图的描述子,对相机运动具有鲁棒性。深度轨迹对不规则运动以及镜头边界具有鲁棒性,能很好的提取视频中的运动信息。实验结果表明比大部分特征描述方法具有更好的识别准确率,详见文献“Heng Wang,Klaser,A.,Schmid,C.,Cheng-Lin Liu.Action Recognition by Dense Trajectories.IEEE Conference on Computer Vision and Pattern Recognition(CVPR),June 2011.”;三):基于协方差的行为识别方法。提取连续视频序列中的协方差特征,转换到对数欧式空间,使用对数欧式空间距离度量方式。采用最近邻分类方法或者稀疏线性估计方法进行识别分类。该方式框架简单,计算复杂度低,能很好的应对人体行为差异、视角变换以及低分辨率等问题,并且识别准确率极高,详见文献“Kai Guo,Prakash Ishwar,Janusz Konrad.Action Recognition from Video Using Feature Covariance Matrices.IEEE Transactions on Image Processing,Mar 2013.”。人体行为识别在实现时由于受到人体行为的类间变化和类内变化、行为执行环境和摄像机位置和人体行为在时空中的变化等因素的影响,大大限制了识别准确率的提升。行为表征中往往不能有效融合不同特征,降低特征表征力度,减少外界干扰。
技术实现思路
本专利技术的专利技术目的在于:针对上述存在的问题,提供一种基于核稀疏编码的人体行为识别方法。本专利技术的基于核稀疏编码的人体行为识别方法,包括下列步骤:步骤1:提取输入视频的行为特征:将输入视频分成长度固定且相互重叠的视频段;分别对各视频段的像素点进行特征提取,得到像素点(x,y,t)的像素点特征f(x,y,t),其中(x,y)表示像素点的平面坐标,t表示像素点的视频帧信息;特征提取的方式为梯度光流特征或者形状协方差特征:当采用梯度光流特征时,分别计算像素点(x,y,t)的像素值沿x、y方向的一阶、二阶梯度绝对值:|Ix|,|Iy|,|Ixx|,|Iyy|,沿x,y,t方向的光流u,v,w,以及u,v,w对时刻t求偏导数,则f(x,y,t)=[g,o],其中当采用形状特征时,提取当前视频块的前景图像,再在前景图像中,分别计算坐标位置(x,y)到前景图像的轮廓边界的水平与垂直四个方向的距离dE,dw,dS,dN,坐标位置(x,y)到前景图像的轮廓的最小外接矩形的顶点的距离dNE,dSW,dSE,dNW;计算像素点(x,y,t)所在视频帧与当前视频段的起始帧、结束帧的间隔帧数dT-、dT+,则f(x,y,t)=[x,y,t,dE,dw,dS,dN,dNE,dSW,dSE,dNW,dT+,dT-];基于每个视频段的行为特征向量f(x,y,t)构建n*n维(取决于f(x,y,t)的维度)协方差矩阵其中S表示视频段的不同视频帧的图像区域,|S|表示图像区域S的像素点数目;步骤2:将协方差矩阵F转换到再生核希尔伯特空间,对行为特征向量进行核稀疏编码;步骤3:基于核稀疏编码,完成对各视频段的人体行为分类学习及识别。优选的,在将协方差矩阵F转换到再生核希尔伯特空间之前,先采用对称正定矩阵降维方法对协方差矩阵F进行降维处理。即将矩阵F转换为F=WTXW,其中X为n*n维协方差矩阵,W为n*m维满秩矩阵,降维后,将协方差矩阵F的变为m*m维对称矩阵,即m*m维协方差矩阵。步骤2中,将协方差矩阵F转换到再生核希尔伯特空间,对行为特征向量进行核稀疏编码可基于黎曼流行实现。即利用Stein核,在对称正定矩阵空间(步骤1得到的协方差矩阵F,或者经对称正定矩阵降维处理后的将协方差矩阵F),利用稀疏最大化方法进行字典D(黎曼字典)学习。利用Stein核,将黎曼流形(即步骤1得到的协方差矩阵F,或者经对称正定矩阵降维处理后的将协方差矩阵F)嵌入再生核希尔伯特空间(RKHS)进行核稀疏编码,其具体步骤为:步骤2-1:基于预设值初始化字典D,其中字典D包括n个字典原子Di,i=1,2,…,N,且字典原子Di属于维黎曼空间点集,其中字典D的初始值可以是随机选择的T个样本,也可以是Karchar均值聚类中心;步骤2-2:基于字典D的当前取值,当前视频段对应的m*m维的协方差矩阵F,查找使得取得最小的稀疏向量vi,其中vi为N维行向量;将m个核稀疏向量vi构成核稀疏编码V,其中RN表示1*N维实矩阵,函数表示将括号中的对象转换到再生核希尔伯特空间,λ表示预设系数;步骤2-3:对核稀疏编码V、字典D进行迭代更新:固定核稀疏编码V,更新字典D:基于当核前稀疏编码V、当前视频段对应的协方差矩阵F,查找使得取得最小的字典原子Di,其中Di属于维黎曼空间点集;固定字典D,更新核稀疏编码V:基于当前字典D、当前视频段对应的协方差矩阵F,查找使得取得最小的核稀疏向量vi,其中vi为N维行向量;基于当前和上一次V、D更新结果,分别计算若两次计算结果的差小于或等于预设阈值,则停止迭代更新,输出当前核稀疏编码V。其中,X对应步骤2-1~2-3中描述的F或Fj,其中K(X,Di)=[ai]N×1,ai=k(X,Di);aij=k(Di,Di)。其中函数k(X,Y)表示Stein核:用Ω={X1,X2,…,XN本文档来自技高网
...

【技术保护点】
一种基于核稀疏编码的人体行为识别方法,其特征在于,包括下列步骤:步骤1:提取输入视频的行为特征:将输入视频分成长度固定且相互重叠的视频段;分别对各视频段的像素点进行特征提取,得到像素点(x,y,t)的像素点特征f(x,y,t),其中(x,y)表示像素点的平面坐标,t表示像素点的视频帧信息;特征提取的方式为梯度光流特征或者形状协方差特征:当采用梯度光流特征时,分别计算像素点(x,y,t)的像素值沿x、y方向的一阶、二阶梯度绝对值:|Ix|,|Iy|,|Ixx|,|Iyy|,沿x,y,t方向的光流u,v,w,以及u,v,w对时刻t求偏导数,则f(x,y,t)=[g,o],其中当采用形状特征时,提取当前视频块的前景图像,再在前景图像中,分别计算坐标位置(x,y)到前景图像的轮廓边界的水平与垂直四个方向的距离dE,dw,dS,dN,坐标位置(x,y)到前景图像的轮廓的最小外接矩形的顶点的距离dNE,dSW,dSE,dNW;计算像素点(x,y,t)所在视频帧与当前视频段的起始帧、结束帧的间隔帧数则基于每个视频段的行为特征向量f(x,y,t)构建协方差矩阵F:其中S表示视频段的不同视频帧的图像区域,|S|表示图像区域S的像素点数目;步骤2:将协方差矩阵F转换到再生核希尔伯特空间,对行为特征向量进行核稀疏编码;步骤3:基于核稀疏编码,完成对各视频段的人体行为分类及识别。...

【技术特征摘要】
1.一种基于核稀疏编码的人体行为识别方法,其特征在于,包括下列步骤:步骤1:提取输入视频的行为特征:将输入视频分成长度固定且相互重叠的视频段;分别对各视频段的像素点进行特征提取,得到像素点(x,y,t)的像素点特征f(x,y,t),其中(x,y)表示像素点的平面坐标,t表示像素点的视频帧信息;特征提取的方式为梯度光流特征或者形状协方差特征:当采用梯度光流特征时,分别计算像素点(x,y,t)的像素值沿x、y方向的一阶、二阶梯度绝对值:|Ix|,|Iy|,|Ixx|,|Iyy|,沿x,y,t方向的光流u,v,w,以及u,v,w对时刻t求偏导数,则f(x,y,t)=[g,o],其中当采用形状特征时,提取当前视频块的前景图像,再在前景图像中,分别计算坐标位置(x,y)到前景图像的轮廓边界的水平与垂直四个方向的距离dE,dw,dS,dN,坐标位置(x,y)到前景图像的轮廓的最小外接矩形的顶点的距离dNE,dSW,dSE,dNW;计算像素点(x,y,t)所在视频帧与当前视频段的起始帧、结束帧的间隔帧数则基于每个视频段的行为特征向量f(x,y,t)构建协方差矩阵F:其中S表示视频段的不同视频帧的图像区域,|S|表示图像区域S的像素点数目;步骤2:将协方差矩阵F转换到再生核希尔伯特空间,对行为特征向...

【专利技术属性】
技术研发人员:解梅黄成挥程石磊刘伸展
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1