基于相似性权值的半监督字典学习的人体行为识别方法技术

技术编号：12388906 阅读：33 留言：0更新日期：2015-11-25 22:16

本发明专利技术公开了一种基于相似性权值的半监督字典学习的人体行为识别方法，主要解决现有技术有监督方法对人体行为识别率低的问题。其识别过程为：(1)将输入的数据集划分成测试样本和训练样本；(2)对所有样本进行局部特征检测，随机选取有标签样本的局部特征得到初始化字典；(3)根据初始化字典，使用半监督方法进行字典学习；(4)使用学到的字典对所有样本进行组稀疏编码，得到每个样本的编码矩阵；(5)将每个样本的编码矩阵进行向量化得到最终表示；(6)利用每个样本的最终表示和稀疏表示分类方法对测试样本分类，完成测试样本中人体行为的识别。本发明专利技术增强了字典学习的判别性，提高了人体行为识别率，可用于视频中目标检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于模式识别
，特别涉及视频中目标人物行为的识别方法，可用于视频中目标检测。
技术介绍
人体行为识别是指识别出视频序列中目标的行为信息，为之后的处理工作做准备，其包括从视频序列中检测出相关的目标视觉信息，并用一种合适的方式进行表达，最后解释这些信息以实现学习和识别人的行为。近年来，无监督和有监督字典学习已经成功应用于图像分类和行为识别领域。在人体行为识别领域，它们的区别是否用到有标签的视频序列，其中无监督字典学习没有用到视频的标签信息，而有监督字典学习刚好相反。最终通过学习到的字典进行识别等后续工作。对于有监督字典学习分为以下几个步骤：第一步，获取局部特征：利用局部特征检测器，如Harris3D检测子,Hessian检测子,Cuboid检测子等，自动检测出视频中感兴趣的区域，并用相应的描述子对其进行描述；第二步，获取初始化字典：利用K均值将所有视频局部特征描述符进行聚类，从而得到若干个聚类中心，而这些聚类中心就是所谓的视觉关键词，聚类中心的个数或称作词包的大小可事先由人为设定。第三步，获取字典：对目标函数进行求解，一般包括重复进行的二个步骤，即求解编码系数和字典学习交替进行，直到终止条件达到。可以看出有监督的字典学习相对于无监督字典学习使用到了视频序列的标签信息，而不同的有监督字典学习方法就在于如何使用标签信息。但因为实际生活中目标的标签获取需要耗费大量的人力物力，实际生活...
基于相似性权值的半监督字典学习的人体行为识别方法

【技术保护点】
基于相似性权重的半监督字典学习的人体行为识别方法，包括如下步骤：(1)输入包含c类行为的视频数据集，其中包括训练数据集和测试数据集，训练数据集由nL个带有类别标签的视频数据和nU个无标签视频数据组成，测试数据集由nT个测试视频数据组成，每个视频作为一个样本只含有一种行为；(2)提取每个视频数据的局部特征：利用空时域的Harris角点检测方法对每个视频进行局部特征区域检测，在提取到的局部特征区域提取视频的梯度直方图特征和光流直方图特征，并把得到的这两种特征进行拼接，获得每个视频中行为的局部特征；(3)从训练样本集中，通过对每一类视频样本的局部特征进行随机采样得到初始化字典D(0)∈Rd×m，其中：d表示样本局部特征的维数，m表示字典原子的个数；3a)假设训练样本第i类视频样本的局部特征为其中：ni表示第i类训练样本有标签样本的个数，i＝1,2,...,c，c表示视频样本的类别数；3b)对训练样本的第i类视频样本的局部特征Xi进行随机采样得到第i类的初始化类别字典将获得的所有初始化类别字典进行拼接得到初始化字典其中：d表示局部特征的维数，b表示每类初始化类别字典的原子个数，m是初始化字典的...

【技术特征摘要】
1.基于相似性权重的半监督字典学习的人体行为识别方法，包括如下步骤：
(1)输入包含c类行为的视频数据集，其中包括训练数据集和测试数据集，训练数据
集由nL个带有类别标签的视频数据和nU个无标签视频数据组成，测试数据集由nT个测试视
频数据组成，每个视频作为一个样本只含有一种行为；
(2)提取每个视频数据的局部特征：利用空时域的Harris角点检测方法对每个视频进
行局部特征区域检测，在提取到的局部特征区域提取视频的梯度直方图特征和光流直方图
特征，并把得到的这两种特征进行拼接，获得每个视频中行为的局部特征；
(3)从训练样本集中，通过对每一类视频样本的局部特征进行随机采样得到初始化字
典D(0)∈Rd×m，其中：d表示样本局部特征的维数，m表示字典原子的个数；
3a)假设训练样本第i类视频样本的局部特征为其中：ni表示第i类
训练样本有标签样本的个数，i＝1,2,...,c，c表示视频样本的类别数；
3b)对训练样本的第i类视频样本的局部特征Xi进行随机采样得到第i类的初始化类
别字典将获得的所有初始化类别字典进行拼接得到初始化字典
其中：d表示局部特征的维数，b表示每类初始化类别
字典的原子个数，m是初始化字典的原子个数，即m＝c*b。
(4)构造用于编码的权重矩阵A(t)∈Rm×n，其中：n表示所有训练样本的个数即
n＝nL+nU，t＝0,1,...,Τmax，Τmax表示最大迭代次数，权重矩阵的每一列表示对应样本
的权重向量；
(5)使用第t次迭代获得的字典D(t)，通过优化下面的目标函数对第l个视频样本的局
部特征进行编码，得到第l个视频样本的第t次迭代的编码矩阵minBl(t)12||Yl-D(t)Bl(t)||F2+λ1||Bl(t)||1,1+λ2||diag(A.l(t))Bl(t)||2,1]]>其中，Yl表示第l个视频样本的局部特征，l＝1,2,....,n，是权重矩阵A(t)的第l列，||·||F
\t表示F范数，||·||1,1表示矩阵的1,1范数即表示编码矩阵的第p行，
||·||1表示向量的1范数，||·||2,1表示矩阵的2,1范数，上式第一项表示视频样本编码的重...

【专利技术属性】
技术研发人员：张向荣，焦李成，孙志豪，马文萍，侯彪，白静，马晶晶，冯婕，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人