基于时间依赖约束下深度非负矩阵分解的行为识别方法技术

技术编号:16475840 阅读:165 留言:0更新日期:2017-10-29 03:39
本发明专利技术公开了一种基于时间依赖约束下深度非负矩阵分解的行为识别方法,主要解决现有方法提取的特征表达性不足,行为识别率低的问题。其实现步骤:1)对原始视频进行运动显著区域提取,并分段构造相应非负矩阵集合;2)添加时间依赖约束,构造时间依赖约束非负矩阵分解;3)利用时间依赖约束非负矩阵分解构造深度为L的时间依赖约束下深度非负矩阵分解框架,并利用该框架对非负矩阵集合中的数据进行分解;4)将各层输出的系数矩阵归一化后串接作为空时特征输出;5)对空时特征构建词袋模型,再通过SVM分类器进行识别分类。本发明专利技术能获得较高判别性和表达性的空时特征,可应用于视频监控、运动分析等对行为识别准确率要求较高的场合。

【技术实现步骤摘要】
基于时间依赖约束下深度非负矩阵分解的行为识别方法
本专利技术属于图像处理
,涉及一种人体行为识别方法,可用于智能视频监控和人机交互。
技术介绍
人体行为识别技术具有广泛的应用前景和非常可观的经济价值,涉及的应用领域主要包括:视频监控、运动分析、虚拟现实等。科研人员已经对人体行为识别的相关技术开展了大量深入的研究,积累了丰富的研究成果,但就整体而言,人体行为识别这一研究领域目前仍处于基础研究阶段,还存在许多关键问题和技术难点亟待解决,例如研究具有高识别率、高鲁棒性,较为简洁的行为表征方式。一些学者发现视频的空时信息有助于提高行为的识别率,如何有效的从视频数据中获取空时信息就成为行为识别领域的研究重点。(1)LuoJ,WangW,QiH.Spatio-temporalfeatureextractionandrepresentationforRGB-Dhumanactionrecognition.PatternRecognitionLetters,2014,50(C):139–148。这种方法提出了一种中心对称局部运动三元模式(CS-Mltp)用来描述在时间和空间上的梯度特征,该方法提取的特征能够保持良好的空间、时间信息,并且近似误差降低,但对于有噪声的视频,在提取特征过程中将产生更多的噪声点,严重影响视频特征提取的准确度。(2)BenAounN,MejdoubM,BenAmarC.Graph-basedapproachforhumanactionrecognitionusingspatio-temporalfeatures.JournalofVisualCommunication&ImageRepresentation,2014,25(2):329-338。这种方法将特征结构表示图和词袋模型相结合对特征的空时关系进行建模,能够有效地抑制视频噪声和遮挡所带来的影响,然而该方法仅考虑了子图的精确匹配,并发现出现频率较高的子图,但是所得到的空时特征判别性较弱。非负矩阵分解NMF是在矩阵中所有元素为非负条件下的一种矩阵分解方法,能够大大降低数据特征的维数,分解特性合乎人类视觉感知直观体验,分解结果具有可解释和明确的物理意义,自提出以来受到人们的广泛关注,已成功应用于模式识别、计算机视觉和图像工程等多个领域。目前已提出的基本非负矩阵分解方法:(3)LeeDD,SeungHS.Learningthepartsofobjectswithnonnegativematrixfactorization.Nature,1999,401(6755):788-791。提出一种新的矩阵分解方法—非负矩阵分解。它能够把一个矩阵的所有元素均为非负的非负矩阵分解为两个非负矩阵的乘积,同时实现非线性的维数约减。然而该基本非负矩阵分解方法应用于视频特征提取时,仅考虑视频各帧的空间特征,忽略视频的空时特征。
技术实现思路
本专利技术目的是针对上述已有技术的不足,提出一种基于时间依赖约束下深度非负矩阵分解的行为识别方法,以提取视频的空时特征,提高行为识别的准确率。实现本专利技术的技术关键是通过添加时间依赖约束,构造时间依赖约束非负矩阵分解,并以此为算法单元构造时间依赖约束下深度非负矩阵分解框架,进行视频空时特征提取,具体实现步骤包括如下:(1)对于原始视频O,提取每帧的运动显著性区域,构成视频运动显著性区域V={v1,v2,…,vi,…,vZ},其中,vi表示第i帧的运动显著性区域,i=1,2,…,Z,Z表示视频的帧数;(2)将视频运动显著性区域V的每s帧划分为一段,并遍历转化为非负矩阵集合X={X1,X2,…,Xq,…,XNs},其中,Xq表示第q段显著性区域构成的非负矩阵,q=1,2,…,Ns,Ns表示一个视频分段的段数;(3)添加时间依赖约束,构造时间依赖约束非负矩阵分解的目标函数D:其中,G为非负矩阵,F为基矩阵,H为系数矩阵,λ和η分别为时间依赖项和稀疏项调节参数,wu是对应于间隔帧数集合U中任意元素u的权值列向量,u∈U,因此,对于应间隔帧数集合U,会构成一个权值矩阵W=[w1,w2,...,wu,...,wg],权值可以按行通过向量自回归方法计算,g表示最大间隔帧数,g=max(U),diag(wu)是将权值列向量对角化为一个对角矩阵,(·)T表示向量或矩阵的转置,||·||2,1表示L2,1范数,Pu=Pg-Pu∈Rn×(n-g-1),Pg为水平偏移矩阵算子,Pu为水平偏移矩阵算子,I(n-g-1)×(n-g-1)为(n-g-1)×(n-g-1)的单位阵,0(g+1)×(n-g-1)为(g+1)×(n-g-1)的全0矩阵;(4)利用时间依赖约束非负矩阵分解构造深度为L的时间依赖约束下深度非负矩阵分解框架,并利用该框架对第q个视频片段的非负矩阵Xq进行分解,得到L个系数矩阵H(l),l=1,2,…,L,其中,l为分解层数索引;(5)对系数矩阵H(l)按行进行归一化并将归一化后的行串接,得到整个输入数据的空时特征输出k=1,2,…,rl,rl为第l层非负矩阵分解维数,表示第l层系数矩阵的第k行;(6)对非负矩阵集合X的非负矩阵逐个分解,即对于每个非负矩阵均采用步骤(4)-步骤(5)的操作,得到整个视频的空时特征输出:其中Featq为第q个视频片段空时特征,(·)T表示向量或矩阵的转置,q=1,2,…,Ns;(7)按照步骤(4)-步骤(6)的过程对所有样本视频进行空时特征提取,并划分为训练集Dtr和测试集Dte,使用词袋模型获得训练集Dtr的直方图向量Ntr和测试集Dte的直方图向量Nte;(8)使用训练集的直方图向量Ntr训练SVM分类器,将测试集的直方图向量Nte输入到训练好的SVM中,输出测试集Dte对应的测试样本所属的行为类别。本专利技术与现有技术相比具有以下优点:1)本专利技术由于构造了时间依赖约束非负矩阵分解,故可在保留视频空间特征的同时也保留视频的时间特性;2)本专利技术由于采用深层NMF分解,通过逐层补充完善,能够学习更具表达性的空时特征,从而进一步提高获得空时特征的表达能力。附图说明图1是本专利技术的实现流程图。具体实施方式参照图1,本专利技术的实现步骤如下:步骤1提取原始视频O的运动显著性区域V。(1a)构造大小为5×5的高斯滤波器,并对原始视频O={o1,o2,…,oi,…,oZ}进行高斯滤波,对应得到滤波后的视频B={b1,b2,…,bi,…,bZ},其中,bi表示滤波后的第i个视频帧,i=1,2,…,Z;(1b)利用如下公式计算第i个视频帧oi的运动显著性区域vi:vi=|moi-bi|,其中,moi为第i个视频帧oi的像素几何平均值;(1c)对视频O中所有帧重复步骤(1b)中的操作,得到整个视频运动显著性区域V={v1,v2,…,vi,…,vZ}。本步骤显著性提取方法来源于2009年RadhakrishnaAchanta等人发表的“Frequency-tunedSalientRegionDetection”一文,所用方法不限于此,也可以使用其他显著性提取方法,如2015年Ming-MingCheng等人发表的“GlobalContrastBasedSalientRegionDetection”等。步骤2将视频运动显著本文档来自技高网
...
基于时间依赖约束下深度非负矩阵分解的行为识别方法

【技术保护点】
基于时间依赖约束下深度非负矩阵分解的行为识别方法,包括如下步骤:(1)对于原始视频O,提取每帧的运动显著性区域,构成视频运动显著性区域V={v1,v2,…,vi,…,vZ},其中,vi表示第i帧的运动显著性区域,i=1,2,…,Z,Z表示视频的帧数;(2)将视频运动显著性区域V的每s帧划分为一段,并遍历转化为非负矩阵集合X={X1,X2,…,Xq,…,XNs},其中,Xq表示第q段显著性区域构成的非负矩阵,q=1,2,…,Ns,Ns表示一个视频分段的段数;(3)添加时间依赖约束,构造时间依赖约束非负矩阵分解的目标函数D:

【技术特征摘要】
1.基于时间依赖约束下深度非负矩阵分解的行为识别方法,包括如下步骤:(1)对于原始视频O,提取每帧的运动显著性区域,构成视频运动显著性区域V={v1,v2,…,vi,…,vZ},其中,vi表示第i帧的运动显著性区域,i=1,2,…,Z,Z表示视频的帧数;(2)将视频运动显著性区域V的每s帧划分为一段,并遍历转化为非负矩阵集合X={X1,X2,…,Xq,…,XNs},其中,Xq表示第q段显著性区域构成的非负矩阵,q=1,2,…,Ns,Ns表示一个视频分段的段数;(3)添加时间依赖约束,构造时间依赖约束非负矩阵分解的目标函数D:其中,G为非负矩阵,F为基矩阵,H为系数矩阵,λ和η分别为时间依赖项和稀疏项调节参数,wu是对应于间隔帧数集合U中任意元素u的权值列向量,u∈U,因此,对于应间隔帧数集合U,会构成一个权值矩阵W=[w1,w2,...,wu,...,wg],权值可以按行通过向量自回归方法计算,g表示最大间隔帧数,g=max(U),diag(wu)是将权值列向量对角化为一个对角矩阵,(·)T表示向量或矩阵的转置,||·||2,1表示L2,1范数,Pu=Pg-Pu∈Rn×(n-g-1),Pg为水平偏移矩阵算子,Pu为水平偏移矩阵算子,I(n-g-1)×(n-g-1)为(n-g-1)×(n-g-1)的单位阵,0(g+1)×(n-g-1)为(g+1)×(n-g-1)的全0矩阵;(4)利用时间依赖约束非负矩阵分解构造深度为L的时间依赖约束下深度非负矩阵分解框架,并利用该框架对第q个视频片段的非负矩阵Xq进行分解,得到L个系数矩阵H(l),l=1,2,…,L,其中,l为分解层数索引;(5)对系数矩阵H(l)按行进行归一化并将归一化后的行串接,得到整个输入数据的空时特征输出rl为第l层非负矩阵分解维数,表示第l层系数矩阵的第k行;(6)对非负矩阵集合X的非负矩阵逐个分解,即对于每个非负矩阵均采用步骤(4)-步骤(5)的操作,得到整个视频的空时特征输出:其中Featq为第q个视频片段空时特征,(·)T表示向量或矩阵的转置,q=1,2,…,Ns;(7)按照步骤(4)-步骤(6)的过程对所有样本视频进行空时特征提取,并划分为训练集Dtr和测试集Dte,使用词袋模型获得训练集Dtr的直方图向量Ntr和测试集Dte的直方图向量Nte;(8)使用训练集的直方图向量Ntr训练SVM分类器,将测试集的直方图向量Nte输入到训练好的SVM中,输出测试集Dte对应的测试样本所属的行为类别。2.根据权利要求1所述的方法,其中步骤(1)中提取视频运动显著性区域,按如下步骤进行:(1a)构造大小为5×5的高斯滤波器,并对视频O={o1,o2,…,oi,…,oZ}进行滤波,对应得到滤波后的视频B={b1,b2,…,bi,...

【专利技术属性】
技术研发人员:同鸣汪雷李海龙
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1