一种基于动作字典学习的人体动作检测方法技术

技术编号:10743551 阅读:145 留言:0更新日期:2014-12-10 16:26
本发明专利技术提供一种基于动作字典学习的人体动作检测方法。在训练阶段,利用局部特征表示方法提取不同视频片段中的人体动作特征,通过训练学习一个具有较强判别力的人体动作字典;在对动作字典进行建模时不仅考虑了重构误差,还考虑了新的误差项使得建模更优;在测试阶段,时空滑动窗口遍历整段视频得到的滑动窗口的稀疏编码,并根据稀疏编码中对于不同字典项的响应值来判断时空滑动窗口中是否包含某一人体动作。本发明专利技术不需要负样本即可训练得到人体动作字典,训练过程简单快速。

【技术实现步骤摘要】
一种基于动作字典学习的人体动作检测方法
本专利技术属于计算机视觉技术,涉及人体动作检测技术。
技术介绍
人体活动分析是计算机视觉领域中最活跃的研究主题之一,其核心是利用计算机视觉技术从图像序列中检测、跟踪、识别人并对其行为进行理解与描述。基于计算机视觉的人体动作检测方法是人体运动分析研究的核心技术,它包括对视场中的人体进行检测,获取反映人体动作的参数,以达到理解人体动作的目的;在智能监控、智能家电、人机交互、基于内容的视频检索和图像压缩等领域有着广阔的应用前景和极大的经济价值与社会价值。在实际应用中,受光照变化、遮挡、复杂场景、视角变化、尤其是个体差异,如表情、姿态、运动、衣着等不利因素的制约,使得人体动作检测极具困难。详见文献:AggarwalJK,RyooMS.Humanactivityanalysis:Areview[J].ACMComputingSurveys(CSUR),2011,43(3):16.江焯林.基于计算机视觉的人体动作检测和识别方法研究[D].华南理工大学博士学位论文,2010.人体动作检测的方法主要有序列法、时空体法和基于特征包(BagofFeature,BOF)模型的方法。人体动作检测主要包括两个步骤:动作表示和动作检测。其中动作表示对人体动作信息进行编码,其主要方法分为全局特征表示、局部特征表示和基于人体模型的表示;动作检测方法主要有直接分类法、模板匹配法、三维分支定界法。详见文献:GaidonA,HarchaouiZ,SchmidC.Actomsequencemodelsforefficientactiondetection[C]//ComputerVisionandPatternRecognition,IEEEComputerSocietyConferenceon.IEEE,2011:3201-3208.全局特征表示方法将人体动作观测量编码为一个整体。全局特征表示可看作是自顶而下的方法,首先对人体进行定位,然后利用人体外接矩形来定义一个兴趣区域,接着对该兴趣区域进行整体信息编码,以表示人体动作。常见的全局特征表示方法主要有轮廓、光流和时空形状。全局特征中充分利用了人体形状信息和运动信息,在检测过程中往往作为模板使用,利用序列法或者时空体法,与视频序列中提取的全局特征进行相似度比较,相似度较大的即为检测结果。全局特征的缺点是过分依赖于精确定位、背景剪除和跟踪的结果,且对视角变化、噪声和遮挡比较敏感。详见文献:YilmazA,ShahM.Actionssketch:Anovelactionrepresentation[C]//ComputerVisionandPatternRecognition,IEEEComputerSocietyConferenceon.IEEE,2005,1:984-989.局部特征表示方法将人体动作表示成一个独立的图像块(patch)或者图像立方体(cuboid)集合。局部特征表示方法可看作是自底而上的方法,首先利用兴趣点检测器检测出时空兴趣点,然后以这些时空兴趣点为中心提取二维图像块或者三维图像立方体,并进行局部特征描述,最终从图像块或者图像立方体提取信息,从而得到一个人体动作表示。时空兴趣点的提取方法主要有:Harris3D,Cuboids和Hessian;围绕时空兴趣点进行局部特征描述可采用的方法主要有:HOG/HOF,HOG3D和扩展SURF。相对于全局特征表示,局部特征表示具有较好的旋转、平移和缩放等不变性,可有效降低复杂背景、人体姿态、视角变化以及遮挡等不利因素的影响,其缺点是依赖于大量时空兴趣点,且有时需要预处理来补偿摄像机运动产生的误差。详见文献:WangLM,QiaoY,TangX.Motionlets:Mid-Level3DPartsforHumanMotionRecognition[C]//ComputerVisionandPatternRecognition,IEEEComputerSocietyConferenceon.IEEE,2013.基于人体模型的表示的主要思想是:人体模型是由骨骼支撑,骨骼架构可以看作是由若干人体部件链接而成的动力系统,该系统的运转形成了不同的人体行为。基于人体模型的表示方法试图提出一种富含信息的人体动作表达方式,学习视频中各个人体组成部分的结构。该方法的内在缺陷是过于依赖目标和动作检测算法,因而这些方法不适用于自然场景下的视频。也有人尝试使用时空patch替代了人体部件,但是选择时空patch的标准以及需要多少时空patch捕捉到人体动作的所有可能变化尚未解决。详见文献:TianY,SukthankarR,ShahM.SpatiotemporalDeformablePartModelsforActionDetection[C]//ComputerVisionandPatternRecognition,IEEEComputerSocietyConferenceon.IEEE,2013.
技术实现思路
本专利技术所要解决的技术问题是,提供一种重构误差较小、判别性能强的人体动作检测方法。本专利技术为解决上述技术问题所采用的技术方案是,一种基于动作字典学习的人体动作检测方法,包括以下步骤:步骤1)采集训练样本,将样本中的彩色图像转化为灰度图像,并统一视频片段的空间分辨率和时长;步骤2计算每段视频的局部三值模式LTP特征,得到一个高维特征矢量表示n维特征空间,n表示高维特征矢量的总维数,()T表示转置;步骤3)将每段视频的LTP特征左乘一个随机度量矩阵进行降维,即y=Ay0,将其从n维降到m维,降维后的特征构成特征矩阵Y;表示m×n随机度量矩阵为元素组成的线性空间,其中随机度量矩阵A各元素aij服从均值为0,方差为1的高斯分布;m<<n,<<表示远小于,满足m比n至少小一个数量级为远小于;步骤4)动作字典模型训练:4-1)动作字典D表示为下式:其中,动作字典D是由M类人体动作对应的M个子字典组成,是第k类人体动作对应的子字典,K表示动作字典D中所有字典项数目,L=K/M为各个子字典中的字典项数目,是字典项,K>>M,>>表示远大于,满足K比M至少大一个数量级为远大于;建立动作字典学习模型,如下式:其中,argmin表示取目标函数取最小值时的参数值,Y为特征矩阵,D表示待学习的动作字典,W表示分类器参数,A表示随机度量矩阵,X表示稀疏矩阵,稀疏矩阵中的列xi对应为样本特征的稀疏编码,i=1,2…,N,表示K×N维线性空间,N表示训练样本总数,α、β为权重系数,H为标示矩阵,标示矩阵中每列hi分别对应一类人体动作的标示向量,H=[h1,…,hN]∈Rm×N,Q为判别矩阵,判别矩阵中每列分别对应一个训练样本属于某类人体动作的判范数别向量,Q=[q1,…,qN]∈RK×N,||·||2表示2范数,s.t.表示约束条件,T表示稀疏度阈值,表示任意号,||·||0表示l0范数;4-2)利用基于核奇异值分解K-SVD算法通过迭代求解:已知量未知中间量经过有限步迭代求得中间量D′后,将中间量D′带入动作字典学习模型得到最终的最优化的动作字典D、随机度量矩阵A,分类器参数W;其中,K-SVD算法中迭代运算初始值通过如下方法确定本文档来自技高网
...
一种基于动作字典学习的人体动作检测方法

【技术保护点】
一种基于动作字典学习的人体动作检测方法,其特征在于,包括以下步骤:步骤1)采集训练样本,将样本中的彩色图像转化为灰度图像,并统一视频片段的空间分辨率和时长;步骤2计算每段视频的局部三值模式LTP特征,得到一个高维特征矢量y0=(y1,...,yn)T;n表示高维特征矢量的总维数,()T表示转置;步骤3)将每段视频的LTP特征左乘一个随机度量矩阵A进行降维,即y=Ay0,将其从n维降到m维,降维后的特征构成特征矩阵Y;其中随机度量矩阵A各元素aij服从均值为0,方差为1的高斯分布;m<<n,<<表示远小于,满足m比n至少小一个数量级为远小于;步骤4)动作字典模型训练:4‑1)动作字典D表示为下式:D=[D1,D2,…,DM]=[d1,1,d1,2,…,d1,L,…,dk,1,dk,2,…,dk,L,…,dM,1,dM,2,…,dM,L]其中,动作字典D是由M类人体动作对应的M个子字典组成,是第k类人体动作对应的子字典,K表示动作字典D中所有字典项数目,L=K/M为各个子字典中的字典项数目,是字典项,K>>M,>>表示远大于,满足K比M至少大一个数量级为远大于;建立动作字典学习模型,如下式:<D,W,A,X>=argminD,W,A,X||Y-DX||22+α||Q-AX||22+β||H-WX||22s.t.∀||xi||0≤T]]>其中,argmin表示取目标函数取最小值时的参数值,Y为特征矩阵,D表示待学习的动作字典,W表示分类器参数,A表示随机度量矩阵,X表示稀疏矩阵,稀疏矩阵中的列xi对应为样本特征的稀疏编码,i=1,2…,N,N表示训练样本总数,α、β为权重系数,H为标示矩阵,标示矩阵中每列hi分别对应一类人体动作的标示向量,H=[h1,…,hN]∈Rm×N,Q为判别矩阵,判别矩阵中每列分别对应一个训练样本属于某类人体动作的判范数别向量,Q=[q1,…,qN]∈RK×N,||·||2表示2范数,s.t.表示约束条件,T表示稀疏度阈值,表示任意号,||·||0表示l0范数;4‑2)利用基于核奇异值分解K‑SVD算法通过迭代求解:<D′,X>=argminD′,X||Y′-D′X||22s.t.∀i||xi||0≤T;]]>已知量Y′=(YT,αQT,βHT)T,]]>未知中间量D′=(DT,αAT,βWT)T;]]>经过有限步迭代求得中间量D′后,将中间量D′带入动作字典学习模型得到最终的最优化的动作字典D、随机度量矩阵A,分类器参数W;其中,K‑SVD算法中迭代运算初始值通过如下方法确定:从M类人体动作中随机抽取样本,利用K‑SVD算法得到M类人体动作各自的初始字典从而构造出动作字典的初值根据每个字典项的标号以及训练样本的类标号确定判别矩阵Q、标示矩阵H;再利用正交匹配跟踪算法得到训练样本的初始稀疏矩阵X;随机度量矩阵的初值A0=(XXT+λ2I)‑1XQT;分类器参数的初值W0=(XXT+λ1I)‑1XHT;步骤5)人体动作检测:时空滑动窗在待测视频序列中滑动,分别统计时空滑动窗中图像对应的稀疏编码在动作字典中各子字典中字典项上的响应之和,判断最高的字典项的响应值是否大于等于阈值,如是,则将响应值最高且超过阈值的字典项所对应的类别作为当前人体动作检测结果,否则,判断当前无人体动作。...

【技术特征摘要】
1.一种基于动作字典学习的人体动作检测方法,其特征在于,包括以下步骤:步骤1)采集训练样本,将样本中的彩色图像转化为灰度图像,并统一视频片段的空间分辨率和时长;步骤2)计算每段视频的局部三值模式LTP特征,得到一个高维特征矢量y0=(y1,...,yn)T;n表示高维特征矢量的总维数,()T表示转置;步骤3)将每段视频的LTP特征左乘一个随机度量矩阵A进行降维,即y=Ay0,将其从n维降到m维,降维后的特征构成特征矩阵Y;其中随机度量矩阵A各元素aij服从均值为0,方差为1的高斯分布;m<<n,<<表示远小于,满足m比n至少小一个数量级为远小于;步骤4)动作字典模型训练:4-1)动作字典D表示为下式:D=[D1,D2,…,DM]=[d1,1,d1,2,…,d1,L,…,dk,1,dk,2,…,dk,L,…,dM,1,dM,2,…,dM,L]其中,动作字典D是由M类人体动作对应的M个子字典组成,是第k类人体动作对应的子字典,K表示动作字典D中所有字典项数目,L=K/M为各个子字典中的字典项数目,是字典项,K>>M,>>表示远大于,满足K比M至少大一个数量级为远大于;建立动作字典学习模型,如下式:其中,argmin表示取目标函数取最小值时的参数值,Y为特征矩阵,D表示待学习的动作字典,W...

【专利技术属性】
技术研发人员:解梅蔡勇何磊蔡家柱
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1