一种基于全局特征和稀疏表示分类的人体行为识别方法技术

技术编号:17442388 阅读:52 留言:0更新日期:2018-03-10 15:12
本发明专利技术涉及基于全局特征和稀疏表示分类的人体行为识别方法。对视频帧进行高斯核卷积滤波预处理,差分法提取运动前景像素;据参数在时空维度对像素值采样确定运动区域,调整视频帧的大小初步降维,将每帧视频按列拼接成向量组合得到特征向量;将特征向量按列拼接成特征矩阵后第二次降维,求得特征矩阵构成最初特征字典,对字典初始化后采用类别一致K次矩阵奇异值分解法进行字典学习,据所得字典求得输入信号稀疏编码,编码送入分类器输出行为类别;统计字典学习参数并实现实时行为识别。本发明专利技术得出兼具重构性能和分类性能的字典和线性分类器,可用于提高人体行为识别效率,适用于安防监控、基于内容的视频检索、虚拟现实等科学领域。

【技术实现步骤摘要】
一种基于全局特征和稀疏表示分类的人体行为识别方法
本专利技术涉及视频监控图像与视频处理
,尤其涉及一种基于全局特征和稀疏表示分类的人体行为识别方法。
技术介绍
近年来,随着智能视频监控系统的高速发展,运动目标检测作为智能视频监控系统中重要环节,成为了当前计算机视觉的热点研究问题。运动目标检测是从视频序列帧中将前景运动区域从背景图像中分割提取出来。在智能视频监控系统中,运动目标检测效果对后期目标跟踪、行为理解、目标分类等有着决定性的作用。目前,视频运动目标检测方法主要包括光流法、帧间差分法、背景减除法等,其中,背景减除法由于计算量小、实时性好、运行效率高等特点,成为当前运动目标检测最常用的方法。背景减除法的关键在于背景模型的建立与实时更新,只有保证背景模型的准确性,才能较好地检测出运动目标。在实际复杂环境中,背景模型抗干扰能力较差,易受外界光照变化,摄像机抖动等因素影响,导致背景模型与实际背景产生偏差,易将一些伪目标判定为目标对象。近年来,随着机器学习、模式识别与计算机视觉技术的不断融合,基于视频内容的理解近年来逐渐成为视频图像处理领域的研究热点。人体行为识别是在细致和准确地提取运动目标特征后,通过有效的分类识别算法进行人体行为识别。在特征提取阶段,全局特征主要基于人体的全部轮廓来描述人体的运动信息。而在识别阶段。稀疏表示理论目前被广泛地应用于图像压缩编码、图像复原和图像分类等问题,其功能同人脑视觉神经方面的能力和学习能力有一定的相似性,实质上是对庞大数据集的一种降维表示分类。基于稀疏表示的分类算法计算速度快,一般要先收集来自于不同类别的样本的特征以建立字典。类别一致的K次矩阵奇异值分解法用于构造稀疏表示中过完备字典,可以得到一个小巧的、统一的字典以及简单的线性多类分类器,在实际复杂环境中模型抗干扰能力强,成为当前最常用的构建稀疏表示字典的方法。目前人体行为识别领域存在一些问题,如视频中场景的复杂性、行为的类内差异性、行为的类间相似性和缺乏全面准确的运动特征表示,导致在实际复杂环境中,特征表示易受外界环境变化影响,分类模型抗干扰能力较差,人体行为识别准确率较低。本专利技术提出了一种基于全局特征和稀疏表示分类的人体行为识别方法,适用于安防监控、基于内容的视频检索、人机交互及虚拟现实等等科学领域。
技术实现思路
本专利技术针对现有技术中的上述问题,结合目前在模式识别领域表现优异的基于稀疏表示的分类方法,本专利技术提出一种基于全局特征和稀疏表示分类的人体行为识别方法,该方法能全面表示场景中行为的运动特征,提高分类模型的鲁棒性和人体行为识别的准确率,适用于安防监控、基于内容的视频检索、人机交互及虚拟现实等等科学领域。为了达到上述目的,本专利技术采用的技术方案如下:本专利技术涉及一种基于全局特征和稀疏表示分类的人体行为识别方法,包括以下步骤:步骤(1)、获取人体行为视频,对视频帧进行高斯核卷积滤波预处理;步骤(2)、差分法提取运动前景像素;步骤(3)、根据参数在时空维度对像素值采样确定运动区域;步骤(4)、调整视频帧的大小进行初步降维,将每帧视频按列拼接成向量,然后将多帧向量组合起来得到特征向量;步骤(5)、将全部特征向量按列拼接构成特征矩阵,用随机生成的均值为零的正态分布矩阵将特征矩阵投影到低维空间,作为第二次降维;步骤(6)、第二次降维后的特征矩阵构成了最初的特征字典,对特征字典进行初始化操作,初始化结束后采用类别一致的K次矩阵奇异值分解法进行字典学习,得到期望的字典、线性分类器;步骤(7)、输入测试样本,求得其在步骤(6)得到的字典下的稀疏编码,将得到的稀疏编码送入分类器,然后根据步骤(6)得到的线性分类器来估算输入的测试样本的行为类别;步骤(8)、统计结果、调整特征提取、字典学习参数;再返回步骤2;本专利技术的有益效果是,该方法在使用简单易得的行为特征构造字典的情况下,还能保证识别准确率,对实时行为识别有一定的参考价值。附图说明下面结合附图和实施例对本专利技术进一步说明:图1为本专利技术实施例的总体流程图;图2为本专利技术实施例特征提取窗口示例;图3为本专利技术实施例字典学习窗口示例;图4为本专利技术实施例行为识别窗口示例;图5为本专利技术实施例采集视频上的识别结果示例。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明,以下实施例不构成对本专利技术的限定。如图1所示,本专利技术方法的实施流程具体包括以下步骤:S1010:获取人体行为视频,采用MATLAB内置的视频读取函数将得到的每个视频片段转换为一个h×w×F的三维矩阵,h为视频帧的高度,w为视频帧的宽度,第三维F的数值代表了视频的帧数,h×w为视频的每一帧的大小。S1110:在视频预处理阶段,先通过高斯核对视频的每一帧进行高斯卷积滤波。S1120:对视频帧图像使用差分法获取包含运动前景信息的前景图像,对前景图像进行均值滤波以平滑噪声。S1130:根据参数(h,w,patchWin,srs,trs,tprLen)在时空维度对像素值采样确定运动区域,其中,h为视频帧的高度,w为视频帧的宽度,srs为采样点的空间分布,例如,srs=5代表在每行及每列均每隔5个像素点进行一次采样,trs为采样点在时间维度的分布,例如trs=5代表每隔5帧进行一次采样,patchWin决定了采样点周围立方体的长和宽,tprLen决定了采样点周围立方体的帧数跨度;为了获得更显著的运动响应,将每一帧及其前后两帧的像素累加作为当前帧的运动区域;在确定运动区域时,采用采样的方式,采样间隔分为空间间隔与时间间隔,在某个采样点上的运动累计(像素值的累加)若是超过了设定的阈值,则将该采样点周围由参数patchWin和tprLen决定的的视频立方体的像素值标记为运动块,若某个采样点上的像素值的累加小于设定阈值则该采样点周围由参数patchWin和tprLen决定的视频立方体像素值被置为零,否则不做改变。S1140:在通过时空像素值采样统计完运动区域后,将视频帧调整大小以降低拼接特征的维数进行初步降维,具体操作为:将每一帧图像按列拼接成向量,N帧图像的向量首尾相接组合成一个特征向量。S1150:将视频帧图像全部特征向量按列拼接构成特征矩阵,来自不同类别的特征数量一致且位置相邻,用随机生成的均值为零的正态分布矩阵将特征矩阵投影到低维空间,作为第二次降维。该特征提取方法类似于基于人体轮廓的运动能量图,提取速度快,计算量小。因此,特征向量的维数就由确定运动区域的参数来决定,而时空像素值采样的频率也会影响特征的质量。上述特征提取的参数包含6项内容:h、w、patchWin、srs、trs、tprLen,。如图2所示,在特征提取时,首先点击“输入视频”按钮,选择输入视频的文件路径,然后在参数设置中填入特征提取时的参数,各个参数的含义如上所介绍。接着确定特征文件存放的位置,点击“选择文件位置”按钮设置特征存储位置。最后点击“开始提取特征”进行特征提取。在输入视频时可选择多个文件,以便于视频批量处理,减少手动操作次数。S1160:第二次降维后的特征矩阵构成了最初的特征字典。该字典还要通过类别一致的K次矩阵奇异值分解法去学习,来产生兼具重构性能与分类性能的字典以及一个简单的分类矩阵。在通过类别一本文档来自技高网
...
一种基于全局特征和稀疏表示分类的人体行为识别方法

【技术保护点】
一种基于全局特征和稀疏表示分类的人体行为识别方法,其特征在于,包括以下步骤:步骤(1)、获取人体行为视频,采用MATLAB内置的视频读取函数将获得的每个视频片段转换为一个h×w×F的三维矩阵,h为视频帧的高度,w为视频帧的宽度,第三维F的数值代表了视频的帧数,h×w为视频的每一帧的大小;步骤(2)、视频预处理阶段,先通过高斯核对视频的每一帧进行高斯卷积滤波,然后对视频帧图像使用差分法获取前景图像,对前景图像进行均值滤波以平滑噪声;步骤(3)、根据参数(h,w,pathWin,srs,trs,tprlen)在时空维度对像素值采样确定运动区域,其中,h为视频帧的高度,w为视频帧的宽度,srs为采样点的空间分布,trs为采样点在时间维度的分布,patchWin决定了采样点周围立方体的长和宽,tprLen决定了采样点周围立方体的帧数跨度;为了获得更显著的运动响应,将每一帧及其前后两帧的像素累加作为当前帧的运动区域;在确定运动区域时,采用采样的方式;采样间隔分为空间间隔与时间间隔,在某个采样点上的像素值的累加若是超过了设定的阈值,则将该采样点周围由参数patchWin和tprLen决定的的视频立方体的像素值标记为运动块,若某个采样点上的像素值的累加小于设定的阈值则该采样点周围由参数patchWin和tprLen决定的视频立方体像素值被置为零,否则不做改变;步骤(4)、在时空维度对像素值采样确定完运动区域之后,将视频帧调整大小以降低拼接特征的维数进行初步降维,具体为:将每一帧图像按列拼接成向量,N帧图像的向量首尾相接组合成一个特征向量;步骤(5)、将全部特征向量按列拼接构成特征矩阵,来自不同类别的特征数量一致且位置相邻,用随机生成的均值为零的正态分布矩阵将特征矩阵投影到低维空间,作为第二次降维;步骤(6)、第二次降维后的特征矩阵构成了最初的特征字典;对特征字典进行初始化操作:输入得到的特征字典、特征的类别、迭代次数和迭代阈值,对每个类别的子字典分别进行初始化,然后将不同类别的子字典拼接在一起作为初始化的字典。初始化操作的输出为初始化的字典D、线性变换矩阵A、初线性分类参数W以及训练特征的最优编码矩阵;在字典初始化过程中,使用多元岭回归的方法以及二次平方损失和l2范数正则化项初始化线性分类参数W和线性变换矩阵A,公式如下:A=(XX...

【技术特征摘要】
1.一种基于全局特征和稀疏表示分类的人体行为识别方法,其特征在于,包括以下步骤:步骤(1)、获取人体行为视频,采用MATLAB内置的视频读取函数将获得的每个视频片段转换为一个h×w×F的三维矩阵,h为视频帧的高度,w为视频帧的宽度,第三维F的数值代表了视频的帧数,h×w为视频的每一帧的大小;步骤(2)、视频预处理阶段,先通过高斯核对视频的每一帧进行高斯卷积滤波,然后对视频帧图像使用差分法获取前景图像,对前景图像进行均值滤波以平滑噪声;步骤(3)、根据参数(h,w,pathWin,srs,trs,tprlen)在时空维度对像素值采样确定运动区域,其中,h为视频帧的高度,w为视频帧的宽度,srs为采样点的空间分布,trs为采样点在时间维度的分布,patchWin决定了采样点周围立方体的长和宽,tprLen决定了采样点周围立方体的帧数跨度;为了获得更显著的运动响应,将每一帧及其前后两帧的像素累加作为当前帧的运动区域;在确定运动区域时,采用采样的方式;采样间隔分为空间间隔与时间间隔,在某个采样点上的像素值的累加若是超过了设定的阈值,则将该采样点周围由参数patchWin和tprLen决定的的视频立方体的像素值标记为运动块,若某个采样点上的像素值的累加小于设定的阈值则该采样点周围由参数patchWin和tprLen决定的视频立方体像素值被置为零,否则不做改变;步骤(4)、在时空维度对像素值采样确定完运动区域之后,将视频帧调整大小以降低拼接特征的维数进行初步降维,具体为:将每一帧图像按列拼接成向量,N帧图像的向量首尾相接组合成一个特征向量;步骤(5)、将全部特征向量按列拼接构成特征矩阵,来自不同类别的特征数量一致且位置相邻,用随机生成的均值为零的正态分布矩阵将特征矩阵投影到低维空间,作为第二次降维;步骤(6)、第二次降维后的特征矩阵构成了最初的特征字典;对特征字典进行初始化操作:输入得到的特征字典、特征的类别、迭代次数和迭代阈值,对每个类别的子字典分别进行初始化,然后将不同类别的子字典拼接在一起作为初始化的字典。初始化操作的输出为初始化的字典D、线性变换矩阵A、初线性分类参数W以及训练特征的最优编码矩阵;在字典初始化过程中,使用多元岭回归的方法以及二次平方损失和l2范数正则化项初始化线性分类参数W和线性变换矩阵A,公式如下:A=(XXt+λ1I)-1XQt,(1)W=(XXt+λ1I)-1XHt,(2)其中,X表示输入样本在特征字典下的编码矩阵;Q是训练样本的类别矩阵,其列数等于训练样本数,行数等于字典原子数;H为输入样本的...

【专利技术属性】
技术研发人员:李策杨峰李若童刘瑞莉
申请(专利权)人:中国矿业大学北京
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1