基于相似性权值的半监督字典学习的人体行为识别方法技术

技术编号:12388906 阅读:33 留言:0更新日期:2015-11-25 22:16
本发明专利技术公开了一种基于相似性权值的半监督字典学习的人体行为识别方法,主要解决现有技术有监督方法对人体行为识别率低的问题。其识别过程为:(1)将输入的数据集划分成测试样本和训练样本;(2)对所有样本进行局部特征检测,随机选取有标签样本的局部特征得到初始化字典;(3)根据初始化字典,使用半监督方法进行字典学习;(4)使用学到的字典对所有样本进行组稀疏编码,得到每个样本的编码矩阵;(5)将每个样本的编码矩阵进行向量化得到最终表示;(6)利用每个样本的最终表示和稀疏表示分类方法对测试样本分类,完成测试样本中人体行为的识别。本发明专利技术增强了字典学习的判别性,提高了人体行为识别率,可用于视频中目标检测。

【技术实现步骤摘要】

本专利技术属于模式识别
,特别涉及视频中目标人物行为的识别方法,可用于视频中目标检测。
技术介绍
人体行为识别是指识别出视频序列中目标的行为信息,为之后的处理工作做准备,其包括从视频序列中检测出相关的目标视觉信息,并用一种合适的方式进行表达,最后解释这些信息以实现学习和识别人的行为。近年来,无监督和有监督字典学习已经成功应用于图像分类和行为识别领域。在人体行为识别领域,它们的区别是否用到有标签的视频序列,其中无监督字典学习没有用到视频的标签信息,而有监督字典学习刚好相反。最终通过学习到的字典进行识别等后续工作。对于有监督字典学习分为以下几个步骤:第一步,获取局部特征:利用局部特征检测器,如Harris3D检测子,Hessian检测子,Cuboid检测子等,自动检测出视频中感兴趣的区域,并用相应的描述子对其进行描述;第二步,获取初始化字典:利用K均值将所有视频局部特征描述符进行聚类,从而得到若干个聚类中心,而这些聚类中心就是所谓的视觉关键词,聚类中心的个数或称作词包的大小可事先由人为设定。第三步,获取字典:对目标函数进行求解,一般包括重复进行的二个步骤,即求解编码系数和字典学习交替进行,直到终止条件达到。可以看出有监督的字典学习相对于无监督字典学习使用到了视频序列的标签信息,而不同的有监督字典学习方法就在于如何使用标签信息。但因为实际生活中目标的标签获取需要耗费大量的人力物力,实际生活中的视频往往是无标签的。而且有监督字典学习方法也没有考虑无标签样本信息。2014年,Y.Sun等人在组稀疏的基础上,引入一个加权的组稀疏约束项,该约束项的目的是尽可能的使得同一类的字典原子参与视频的编码,从而提出了一种更具判别性的有监督字典学习方法,该方法充分利用了有标签样本的信息,但并未使用无标签的信息,具体参见SunY,LiuQ,TangJ,etal.Learningdiscriminativedictionaryforgroupsparserepresentation.[J].IEEETransactionsonImageProcessing,2014,23(9):3816-3828。上述方法虽然可以得到更具判别性的字典,提高识别精度,但该方法的不足也是明显的:其只考虑有标记样本,没有考虑无标记样本的信息,没有充分的利用样本的信息;而实际上往往有标签样本获取的难度很大,无标签的样本却可以容易获取且大量存在,如何充分提取并利用大量无标签样本的信息,成为该领域的关键所在。
技术实现思路
本专利技术的目的在于提出一种基于相似性权值的半监督字典学习的人体行为识别方法,以通过提取无标签视频的信息,提高人体行为识别精度。本专利技术的技术思路是:引入无标签视频,来获取更具判别性的字典从而得到每个视频的编码,将其应用到人体行为识别中,其实现步骤包括如下:(1)输入包含c类行为的视频数据集,其中包括训练数据集和测试数据集,训练数据集由nL个带有类别标签的视频数据和nU个无标签视频数据组成,测试数据集由nT个带测试视频数据组成,每个视频作为一个样本只含有一种行为;(2)提取每个视频数据的局部特征:利用空时域的Harris角点检测方法对每个视频进行局部特征区域检测,在提取到的局部特征区域提取视频的梯度直方图特征和光流直方图特征,并把得到的这两种特征进行拼接,获得每个视频中行为的局部特征;(3)从训练样本集中,通过对每一类视频样本的局部特征进行随机采样得到初始化字典D(0)∈Rd×m,其中:d表示样本局部特征的维数,m表示字典原子的个数;3a)假设训练样本第i类视频样本的局部特征为其中:ni表示第i类训练样本有标签样本的个数,i=1,2,...,c,c表示视频样本的类别数;3b)对训练样本的第i类视频样本的局部特征Xi进行随机采样得到第i类的初始化类别字典将获得的所有初始化类别字典进行拼接得到初始化字典其中:d表示局部特征的维数,b表示每类初始化类别字典的原子个数,m是初始化字典的原子个数,即m=c*b。(4)构造用于编码的权重矩阵A(t)∈Rm×n,其中:n表示所有训练样本的个数即n=nL+nU,t=0,1,...,Τmax,Τmax表示最大迭代次数,权重矩阵的每一列表示对应样本的权重向量;(5)使用第t次迭代获得的字典D(t),通过优化下面的目标函数对第l个视频样本的局部特征进行编码,得到第l个视频样本的第t次迭代的编码矩阵minBl(t)12||Yl-D(t)Bl(t)||F2+λ1||Bl(t)||1,1+λ2||diag(A·l(t))Bl(t)||2,1]]>其中,Yl表示第l个视频样本的局部特征,l=1,2,....,n,是权重矩阵A(t)的第l列,||·||F表示F范数,||·||1,1表示矩阵的1,1范数即表示编码矩阵的第p行,||·||1表示向量的1范数,||·||2,1表示矩阵的2,1范数,上式第一项表示视频样本编码的重构误差项,是对编码矩阵的稀疏性约束项,是组稀疏约束项,该组稀疏约束项用以约束参与编码的字典原子来自于同一类的类别字典,λ1是稀疏约束项参数,λ2是组稀疏约束项参数;(6)通过优化下面的目标函数更新字典获得第t+1次迭代的字典D(t+1):minD(t+1)Σl=1n12||Yl-D(t+1)Bl(t)||F2+λ3Σi<jΣj=1c||(Di(t+1))TDj(t+1)||F2]]>其中,是对类别字典的相似性约束项,用以增加类别字典间的判别性,(·)T表示转置运算,λ3是相似性约束项的参数;(7)重复步骤(4)-(6),直到目标函数收敛或达到最大迭代次数,得到最终字典D;(8)使用最终字典D,通过优化下式的目标函数得到每个视频样本的编码矩阵Bg:minBg12||Yg-DBg||F2+γ||Bg||2,1,g=1,2,...,h,]]>其中,||·||F表示F范数,||·||2,1表示2,1范数,上式第一项是视频样本编码的重构误差项,||Bg||2,1是对编码矩阵Bg的组稀疏约束项,h表示所有视频样本的个数即h=nL+nU+nT,γ为组稀疏约束项的参数;(9)对所有视频样本的局部特征,根据步骤(7)中得到的编码矩阵Bg,应用最大池化算法,将每个视频样本表示成一个m维的编码向量zg:zg=[z^1,z^2,..z^k.,z^m]T,k=1,2,.本文档来自技高网
...
基于相似性权值的半监督字典学习的人体行为识别方法

【技术保护点】
基于相似性权重的半监督字典学习的人体行为识别方法,包括如下步骤:(1)输入包含c类行为的视频数据集,其中包括训练数据集和测试数据集,训练数据集由nL个带有类别标签的视频数据和nU个无标签视频数据组成,测试数据集由nT个测试视频数据组成,每个视频作为一个样本只含有一种行为;(2)提取每个视频数据的局部特征:利用空时域的Harris角点检测方法对每个视频进行局部特征区域检测,在提取到的局部特征区域提取视频的梯度直方图特征和光流直方图特征,并把得到的这两种特征进行拼接,获得每个视频中行为的局部特征;(3)从训练样本集中,通过对每一类视频样本的局部特征进行随机采样得到初始化字典D(0)∈Rd×m,其中:d表示样本局部特征的维数,m表示字典原子的个数;3a)假设训练样本第i类视频样本的局部特征为其中:ni表示第i类训练样本有标签样本的个数,i=1,2,...,c,c表示视频样本的类别数;3b)对训练样本的第i类视频样本的局部特征Xi进行随机采样得到第i类的初始化类别字典将获得的所有初始化类别字典进行拼接得到初始化字典其中:d表示局部特征的维数,b表示每类初始化类别字典的原子个数,m是初始化字典的原子个数,即m=c*b。(4)构造用于编码的权重矩阵A(t)∈Rm×n,其中:n表示所有训练样本的个数即n=nL+nU,t=0,1,...,Τmax,Τmax表示最大迭代次数,权重矩阵的每一列表示对应样本的权重向量;(5)使用第t次迭代获得的字典D(t),通过优化下面的目标函数对第l个视频样本的局部特征进行编码,得到第l个视频样本的第t次迭代的编码矩阵minBl(t)12||Yl-D(t)Bl(t)||F2+λ1||Bl(t)||1,1+λ2||diag(A.l(t))Bl(t)||2,1]]>其中,Yl表示第l个视频样本的局部特征,l=1,2,....,n,是权重矩阵A(t)的第l列,||·||F表示F范数,||·||1,1表示矩阵的1,1范数即表示编码矩阵的第p行,||·||1表示向量的1范数,||·||2,1表示矩阵的2,1范数,上式第一项表示视频样本编码的重构误差项,是对编码矩阵的稀疏性约束项,是组稀疏约束项,该组稀疏约束项用以约束参与编码的字典原子来自于同一类的类别字典,λ1是稀疏约束项参数,λ2是组稀疏约束项参数;(6)通过优化下面的目标函数更新字典获得第t+1次迭代的字典D(t+1):minD(t+1)Σl=1n12||Yl-D(t+1)Bl(t)||F2+λ3Σi<jΣj=1c||(Di(t+1))TDj(t+1)||F2]]>其中,是对类别字典的相似性约束项,用以增加类别字典间的判别性,(·)T表示转置运算,λ3是相似性约束项的参数;(7)重复步骤(4)‑(6),直到目标函数收敛或达到最大迭代次数,得到最终字典D;(8)使用最终字典D,通过优化下式的目标函数得到每个视频样本的编码矩阵Bg:minBg12||Yg-DBg||F2+γ||Bg||2,1,g=1,2,...,h,]]>其中,||·||F表示F范数,||·||2,1表示2,1范数,上式第一项是视频样本编码的重构误差项,||Bg||2,1是对编码矩阵Bg的组稀疏约束项,h表示所有视频样本的个数即h=nL+nU+nT,γ为组稀疏约束项的参数;(9)对所有视频样本的局部特征,根据步骤(7)中得到的编码矩阵Bg,应用最大池化算法,将每个视频样本表示成一个m维的编码向量zg:zg=[z^1,z^2,..z^k.,z^m]T,k=1,2,..,m]]>其中,g=1,2,...,h,q=1,2,...,K,Bg|kq表示第g个视频样本编码矩阵Bg的第k行q列,K表示这个视频的局部特征个数;(10)利用所有训练样本的编码向量组成稀疏表示分类字典由类别标签为i的所有训练样本的编码向量组成,i是字典的类别标签i=1,2,...,c,c为类别总数,nL是训练样本中有标签样本的总数,即表示第i类有标签样本的个数;(11)根据分类字典对步骤(9)得到的每个测试样本的编码向量进行稀疏编码,由下式得到测试样本在分类字典上的编码系数β:minβ{||y^-D^β||22+η||β||1},]]>其中,||·||2表示向量的2范数,||·||1表示向量的1范数,η是用于平衡重建误差和编码稀疏性的参数,η取值范围为0~1;(12)利用编码系数β依次计算每个测试样本在每类分类字典上的残差ri(y^)=||y^-D^iβi||22/||βi||2,i=1,...,c]]>其中,βi是当前测试样本在第i类字典上的编码系数;(13)根据残差i...

【技术特征摘要】
1.基于相似性权重的半监督字典学习的人体行为识别方法,包括如下步骤:
(1)输入包含c类行为的视频数据集,其中包括训练数据集和测试数据集,训练数据
集由nL个带有类别标签的视频数据和nU个无标签视频数据组成,测试数据集由nT个测试视
频数据组成,每个视频作为一个样本只含有一种行为;
(2)提取每个视频数据的局部特征:利用空时域的Harris角点检测方法对每个视频进
行局部特征区域检测,在提取到的局部特征区域提取视频的梯度直方图特征和光流直方图
特征,并把得到的这两种特征进行拼接,获得每个视频中行为的局部特征;
(3)从训练样本集中,通过对每一类视频样本的局部特征进行随机采样得到初始化字
典D(0)∈Rd×m,其中:d表示样本局部特征的维数,m表示字典原子的个数;
3a)假设训练样本第i类视频样本的局部特征为其中:ni表示第i类
训练样本有标签样本的个数,i=1,2,...,c,c表示视频样本的类别数;
3b)对训练样本的第i类视频样本的局部特征Xi进行随机采样得到第i类的初始化类
别字典将获得的所有初始化类别字典进行拼接得到初始化字典
其中:d表示局部特征的维数,b表示每类初始化类别
字典的原子个数,m是初始化字典的原子个数,即m=c*b。
(4)构造用于编码的权重矩阵A(t)∈Rm×n,其中:n表示所有训练样本的个数即
n=nL+nU,t=0,1,...,Τmax,Τmax表示最大迭代次数,权重矩阵的每一列表示对应样本
的权重向量;
(5)使用第t次迭代获得的字典D(t),通过优化下面的目标函数对第l个视频样本的局
部特征进行编码,得到第l个视频样本的第t次迭代的编码矩阵minBl(t)12||Yl-D(t)Bl(t)||F2+λ1||Bl(t)||1,1+λ2||diag(A.l(t))Bl(t)||2,1]]>其中,Yl表示第l个视频样本的局部特征,l=1,2,....,n,是权重矩阵A(t)的第l列,||·||F
\t表示F范数,||·||1,1表示矩阵的1,1范数即表示编码矩阵的第p行,
||·||1表示向量的1范数,||·||2,1表示矩阵的2,1范数,上式第一项表示视频样本编码的重...

【专利技术属性】
技术研发人员:张向荣焦李成孙志豪马文萍侯彪白静马晶晶冯婕
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1