基于轨迹和卷积神经网络特征提取的行为识别方法技术

技术编号:15502306 阅读:92 留言:0更新日期:2017-06-03 23:15
本发明专利技术公开了一种基于轨迹和卷积神经网络特征提取的行为识别方法,主要解决人类行为视频内容复杂且特征稀疏而导致计算冗余以及分类正确率低的问题。其步骤包括:输入图像视频数据,对视频帧中像素点下采样,剔除均匀区域采样点,提取轨迹,利用卷积神经网络提取卷积层特征,结合轨迹和卷积层特征抽取基于轨迹约束的卷积特征,基于轨迹约束的卷积特征提取栈式局部费舍尔向量特征,压缩变换栈式局部费舍尔向量特征,利用最终的栈式费舍尔向量特征训练支持矢量机模型,进行人体行为识别与分类。本发明专利技术采用了多层次费舍尔向量结合卷积轨迹特征描述子的方法,能获得较高且稳定的分类正确率,可广泛应用于人机交互,虚拟现实,视频监控等领域。

Behavior recognition method based on trajectory and convolutional neural network feature extraction

The invention discloses a method for extracting trajectory behavior recognition and convolutional neural network based on the characteristics of human behavior, which mainly solves the video content complex and sparse feature calculation caused redundancy and the problem of low classification accuracy. The method comprises the following steps: input image and video data, sampling of the pixels in the video frame, excluding uniform area sampling points, extract tracks, extraction volume layer features using convolutional neural network, combined with the track and roll lamination feature extraction feature trajectory based on the constraint of convolution, convolution characteristics track constraints extracted local features based on vector Fisher stack. Local Fisher transform stack vector feature compression, using the stack Fisher vector training support vector machine model, the identification and classification of human behavior. The invention adopts multi-level Fisher vector method combined with convolution trajectory feature descriptor, can obtain higher classification and stable accuracy, can be widely used in human-computer interaction, virtual reality, video monitoring and other fields.

【技术实现步骤摘要】
基于轨迹和卷积神经网络特征提取的行为识别方法
本专利技术属于视频图像处理
,主要涉及深度学习、特征提取,具体是一种基于轨迹和卷积神经网络特征提取的行为识别方别方法。用于对人体行为视频的分类。
技术介绍
人体动作行为识别广泛应用于人机智能交互、虚拟现实和视频监控等领域。尽管近年来国内外人体动作行为识别的研究取得了重要的进展,但人体运动的高复杂性和多变性使得识别的精确性和高效性并没有完全满足相关行业的使用要求。总体来说人体动作行为识别中的挑战来自一下两方面:1)空间复杂性:不同光照、视角和背景等条件下会呈现不同的动作场景,而在不同的动作场景中相同的人体行为在姿态和特性上会产生差异。即使在恒定的动作场景中,人体动作也会有较大的自由度,而且每一种相同的动作在方向、角度、形状和尺寸方面有很大的差异性。此外,人体自遮挡、部分遮挡、人体个体差异、多人物识别对象等问题都是动作识别复杂性在空间上的体现。空间复杂性对人体动作行为识别结果的影响主要体现在精确性方面。2)时间差异性。时间差异性是指人体动作发生的时间点不可预测,而且动作的持续间隔也不尽相同。此外,动作在作用时间内也可能存在动作空白间隙。时间差异性要求识别过程中能够分辨动作的起止时间,同时有效判断动作作用的有效时间和间隔,对动作在时域和时序范围内进行更加细致的分析,导致动作在不同速率、顺序和组合情况下都会存在差异。时间差异性不仅对识别精确性产生影响,也会带来计算实时性和效率等影响识别高效性的问题。人体动作行为的空间复杂性和时间复杂性使得人体动作行为识别研究领域并没有统一有效的分析分类方法。针对基于视觉的全身人体运动行为识别研究,一般通过一下几种方式进行分析和分类:1)将人体动作行为识别划分为几个互相联系的子过程,根据过程划分方式的不同对相应技术进行分析分类;2)典型问题方式,即选取人体动作行为识别中的部分典型问题作为对象,针对这些对象研究中涉及的方法进行分析分类;3)空间时域方法,即根据时域和空间上各项研究方法的差别对相应技术进行分析分类;4)深度学习方法,即利用人工神经网络模拟人体视觉过程进行分析分类。通过寻找人体行为视频中关键轨迹点以及对应位置的特征描述子是比较有效的行为识别方法,特征描述子包括SIFT、梯度方向直方图HOG、光流场方向直方图HOF、运动边界直方图MBH、稀疏表示等,其中HOG、HOF和MBH是应用最广泛的特征提取方法。HOG特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子,它通过计算和统计图像局部区域的梯度方向直方图来构成特征。HOG特征结合SVM分类器已经广泛的应用于图像中,但是HOG描述子生成过程冗长,计算速度慢,难以达到实时性,并且难以处理遮挡问题,由于梯度本身的特性导致对噪声点十分敏感。SIFT特征是基于物体上的一些局部外观兴趣点与图像大小和旋转无关,对于光线、噪声、微视角改变的容忍度较高,而且对于部分物体遮蔽的侦测率也相当高,但是SIFT对于边缘光滑的目标无法准确提取特征点,而且有时特征点较少,实时性很难满足要求。上述SIFT、HOG、MBH等都是无监督的特征提取方法,采用无监督直接在图像样本上提取信息,由于没有利用类标,缺乏具有判别力的信息,算法局限性会产生大量冗余并且和最终分类无关的特征信息和计算量,尤其对于时间跨度比较长,内容复杂的视频图像,其特征提取的有效性和时间复杂度以及准确率都很难达到要求。有学者采用卷积神经网络处理人体行为分类问题,卷积神经网络能够利用样本的类标自适应的提取图像数据中的抽象特征,让机器自动的从样本中学习到表征这些样本的更加本质的特征则会使得人们更好的用计算机来实现人的视觉功能,通过逐层的构建一个多层的网络来使得机器能够自动的学习到反映隐含在数据内部的关系,从而使得学习到的特征更具有推广性和表达力。但是卷积神经网络模型训练时间复杂度慢,线性分类器分类能力有限,并且存在大量冗余计算,不能有效的针对行为运动视频中关键区域进行特征描述。
技术实现思路
本专利技术的目的在于针对现有技术中存在的计算量大、特征表达能力不足的问题提出一种特征表达能力强,减少冗余计算能抽取抽象卷积轨迹特征的基于轨迹和卷积神经网络特征提取的行为识别方别方法。本专利技术是一种基于轨迹和卷积神经网络特征提取的行为识别方别方法,其特征在于,包括有如下步骤:(1)输入所有视频数据:其中包含B种人体行为,每个视频中只含有一种行为,每个视频包含m帧,每一帧长、宽分为H和W,每个视频为一个样本;(2)获得每个视频的局部费舍尔向量特征:对输入的每个视频采样视频帧,剔除采样视频帧中均匀区域的采样点,对得到的采样点提取运动轨迹,利用卷积神经网络提取卷积层特征,得到基于轨迹约束的卷积层特征,采用不同尺度的长、宽、时间轴将视频分割为多个子块,利用子块中轨迹的数量筛选子块,对筛选后的子块中轨迹约束的卷积层特征进行费舍尔向量编码,得到每个视频的栈式局部费舍尔向量编码特征,具体步骤如下;(2.1)对每个视频中的采样帧进行下采样,从第1帧开始,以Q为时间间隔,采样视频帧,对每一采样帧基于网格进行像素点步长为5的稠密下采样,得到下采样后的图像I1,并以步长5为基准以为倍数再进行稠密采样,得到下采样后的图像I2;(2.2)剔除均匀区域采样点,定义阈值T,采样点i在原始视频帧I中自相关矩阵的特征值的大小:式中表示采样点i在视频帧I中的第一特征值,表示采样点i在视频帧I中的第二特征值,当采样点的特征值G小于阈值T则舍去,使得图像中均匀区域的采样点被移除;(2.3)提取运动轨迹,对移除了均匀区域采样点的人体行为视频帧,分别追踪不同尺度的采样点,对于每一帧计算出对应的稠密光流场ωt=(μt,νt),其中,μt和νt分别为水平和垂直方向的光流;对于当前帧中的一个目标点Pt=(xt,yt),通过使用中值滤波器M追踪目标点在下一帧的位置:其中,M为33大小的中值滤波器,(xt,yt)为当前帧中目标点的横、纵坐标,一系列视频帧上的目标点构成该时间间隔内的运动轨迹:(Pt,Pt+1,Pt+2,...,Pt+Q-1),Q为整个轨迹的最大长度,拼接所有运动轨迹得到整个视频的运动轨迹;(2.4)利用卷积神经网络提取卷积层特征,对每个视频中的每一帧利用卷积和池化操作提取卷积特征图,通过特征图归一化并结合运动轨迹进行池化,提取最终轨迹约束的卷积层特征;(2.5)提取栈式局部费舍尔向量编码特征,使用不同空间尺度对整个视频空间进行分割,得到局部费舍尔向量;(2.6)提取局部费舍尔向量,对视频从长、宽、时间轴进行划分并产生多个尺度的子块,宽度为W/2和W,长度为H/2和H,时间尺度为m/3、2m/3和m,对每个子块的运动轨迹特征S=[s1,s2,...,sN]∈Rd×N进行主成分分析和白化后再进行第一次费舍尔向量编码,费舍尔向量编码的字典包含K个原子,从而得到局部费舍尔特征向量S=[s′1,s′2,...,s′N]∈R2Kd×N,其中,d表示单个运动轨迹的特征维度,N表示运动轨迹的个数;(2.7)筛选局部费舍尔向量,设定阈值E,当某个子块内部的轨迹特征数量小于这个阈值则舍弃该子块,得到更新后的局部费舍尔向量A=[a1,a2,...,aJ]∈R2Kd×Z,其中,Z表示可用子块的数量;(3)本文档来自技高网
...
基于轨迹和卷积神经网络特征提取的行为识别方法

【技术保护点】
一种基于轨迹和卷积神经网络特征提取的行为识别方法,其特征在于,包括有如下步骤:(1)输入所有视频数据:其中包含B种人体行为,每个视频中只含有一种行为,每个视频包含m帧,每一帧长、宽分为H和W,每个视频为一个样本;(2)获得每个视频的局部费舍尔向量特征:对输入的每个视频采样视频帧,剔除采样视频帧中均匀区域的采样点,对得到的采样点提取运动轨迹,利用卷积神经网络提取卷积层特征,得到基于轨迹约束的卷积层特征,采用不同尺度的长、宽、时间轴将视频分割为多个子块,利用子块中轨迹的数量筛选子块,对筛选后的子块中轨迹约束的卷积层特征进行费舍尔向量编码,得到每个视频的栈式局部费舍尔向量编码特征,具体步骤如下;(2.1)对每个视频中的采样帧进行下采样,从第1帧开始,以Q为时间间隔,采样视频帧,对每一采样帧基于网格进行像素点步长为5的稠密下采样,得到下采样后的图像I

【技术特征摘要】
1.一种基于轨迹和卷积神经网络特征提取的行为识别方法,其特征在于,包括有如下步骤:(1)输入所有视频数据:其中包含B种人体行为,每个视频中只含有一种行为,每个视频包含m帧,每一帧长、宽分为H和W,每个视频为一个样本;(2)获得每个视频的局部费舍尔向量特征:对输入的每个视频采样视频帧,剔除采样视频帧中均匀区域的采样点,对得到的采样点提取运动轨迹,利用卷积神经网络提取卷积层特征,得到基于轨迹约束的卷积层特征,采用不同尺度的长、宽、时间轴将视频分割为多个子块,利用子块中轨迹的数量筛选子块,对筛选后的子块中轨迹约束的卷积层特征进行费舍尔向量编码,得到每个视频的栈式局部费舍尔向量编码特征,具体步骤如下;(2.1)对每个视频中的采样帧进行下采样,从第1帧开始,以Q为时间间隔,采样视频帧,对每一采样帧基于网格进行像素点步长为5的稠密下采样,得到下采样后的图像I1,并以步长5为基准以为倍数再进行稠密采样,得到下采样后的图像I2;(2.2)剔除均匀区域采样点,定义阈值T,采样点i在原始视频帧I中自相关矩阵的特征值的大小:式中表示采样点i在视频帧I中的第一特征值,表示采样点i在视频帧I中的第二特征值,当采样点的特征值G小于阈值T则舍去,使得图像中均匀区域的采样点被移除;(2.3)提取运动轨迹,对移除了均匀区域采样点的人体行为视频帧,分别追踪不同尺度的采样点,对于每一帧计算出对应的稠密光流场ωt=(μt,νt),其中,μt和νt分别为水平和垂直方向的光流;对于当前帧中的一个目标点Pt=(xt,yt),通过使用中值滤波器M追踪目标点在下一帧的位置:其中,M为33大小的中值滤波器,(xt,yt)为当前帧中目标点的横、纵坐标,一系列视频帧上的目标点构成该时间间隔内的运动轨迹:(Pt,Pt+1,Pt+2,...,Pt+Q-1),Q为整个轨迹的最大长度,拼接所有运动轨迹得到整个视频的运动轨迹;(2.4)利用卷积神经网络提取卷积层特征,对每个视频中的每一帧利用卷积和池化操作提取卷积特征图,通过特征图归一化并结合运动轨迹进行池化,提取最终轨迹约束的卷积层特征;(2.5)提取栈式局部费舍尔向量编码特征,使用不同空间尺度对整个视频空间进行分割,得到局部费舍尔向量;(2.6)提取局部费舍尔向量,对视频从长、宽、时间轴进行划分并产生多个尺度的子块,宽度为W/2和W,长度为H/2和H,时间尺度为m/3、2m/3和m,对每个子块的运动轨迹特征S=[s1,s2,...,sN]∈Rd×N进行主成分分析和白化后再进行第一次费舍尔向量编码,费舍尔向量编码的字典包含K个原子,从而得到局部费舍尔特征向量S=[s′1,s′2,...,s′N]∈R2Kd×N,其中,d表示单个运动轨迹的特征维度,N表示运动轨迹的个数;(2.7)筛选局部费舍尔向量,设定阈值E,当某个子块内部的轨迹特征数量小于这个阈值则舍弃该子块,得到更新后的局部费舍尔向量A=[a1,a2,...,aJ]∈R2Kd×Z,其中,Z表示可用子块的数量;(3)压缩特征,在获得所有视频的局部费舍尔向量基础上,以25倍交叉验证方法将所有视频数据划分为训练集和测试集,在训练集上,利用最大间隔特征变换方法学习投影矩阵,用该投影矩阵压缩所有训练集和测试集的局部费舍尔向量,对压缩后的局部费舍尔向量再次进行主成分分析和白化,将结果作为输入,进行第二次费舍尔向量编码,最终得到能精确描述人体行为视频的栈式局部费舍尔向量特征;(4)行为识别,基于最终得到的栈式局部费舍尔向量特征与对应的类标,利用支持矢量机以25倍交叉验证方法获得识别结果,完成人体行为识别。2.根据权利要求1所述的基于轨迹和卷积神经网络特征提取的行为识别方法,其特征在于,步骤(2.4)所述的利用卷积神经网络提取轨迹约束的卷积层特征,具体包括有如下步骤:(2.4.1)训练卷积神经网络,对每一个输入的视频帧,提取卷积特征,其中卷积神经网络的结构为5个卷积层,3个全连接层;(2.4.2)获取卷积特征图,对提供的每个视频V,获得一系列的卷积特征...

【专利技术属性】
技术研发人员:张向荣焦李成惠通李阳阳冯婕白静侯彪马文萍
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1