一种基于卷积神经网络和深度核网络的视频行为识别方法技术

技术编号:23787716 阅读:53 留言:0更新日期:2020-04-15 00:50
本发明专利技术提供了一种基于卷积神经网络和深度核网络的视频行为识别方法,包括以下步骤:步骤1:采集视频并按行为类别进行分类;步骤2:对筛选后的视频进行预处理;步骤3:用经过预处理后的数据训练模型;步骤4:采集待检测视频并进行预处理;步骤5:根据步骤3得到的训练好的模型用步骤4得到的预处理后的数据作为输入进行行为识别;步骤6:根据步骤5的识别结果就可以得到与待识别视频相似度最高的行为类别。

A video behavior recognition method based on convolutional neural network and deep kernel network

【技术实现步骤摘要】
一种基于卷积神经网络和深度核网络的视频行为识别方法
本专利技术属于视觉识别
,具体涉及一种基于卷积神经网络和深度核网络的视频行为识别方法。
技术介绍
深度神经网络在解决计算机视觉问题如图像分类和物体检测等方面取得了显著的进步。然而,到目前为止,在视频中识别出人的行为依然是一项具有挑战性的任务。视频中出现的视点变化、遮挡以及光照变化大大增加了该问题的难度。在目前的视频行为识别方法中,双流网络模型是其中最成功的模型之一,它由两个分别输入RGB图像和光流帧的独立的卷积神经网络组成,最后将两个网络的输出融合到一起得到对整个视频的预测。但是,由于双流网络的光流输入仅仅涉及两个相邻的帧,所以它无法描述在一个长时间段内的动作序列的演化。除此之外,现有的深度学习方法大多通过在视频上使用时序最大池的方法编码时序特征,而这样做会导致时变信息的丢失。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种基于卷积神经网络和深度核网络的视频行为识别方法,其核心在与通过采集不同种类的行为类别的视频,根据不同视频的特征信息来训练深度学习模型,从而达到识别视频行为类别的目的。具体包含以下步骤:步骤1:采集视频并按行为类别进行分类;步骤2:对视频进行预处理;步骤3:用经过预处理后的视频数据训练模型;步骤4:采集待检测视频并进行预处理;步骤5:根据步骤3得到的训练好的模型,用步骤4得到的预处理后的数据作为输入进行行为识别;步骤6:根据步骤5的识别结果,得到与待识别视频相似度最高的行为类别。步骤1对视频进行采集并分类,其视频包括:利用现有的大型行为视频数据集,如HMDB-51,UCF-101等,或从网络和现实中自行获取行为视频并标注分类。步骤2中的预处理是为了满足深度学习模型对数据的要求,从而提高识别的准确性。步骤2包括如下步骤:步骤2-1,将采集的视频分割成三个部分,每个部分持续的时间相同;步骤2-2,从分割的每个部分中采样得到长度为T的视频片段,并且计算得到对应的光流场;步骤2-3,在视频片段和光流场上裁剪,得到大小为H×W×c×T的连续彩色图像序列,以及大小为H×W×2L×T的光流场序列,其中H和W分别表示裁剪图像的高度和宽度,c表示彩色图像的通道数,L表示堆叠的光流场的数量。步骤3包括如下步骤:步骤3-1,构造神经网络模型;步骤3-2,初始化神经网络模型;步骤3-3,用步骤2得到的连续彩色RGB图像序列以及光流或翘曲光流场序列对神经网络模型进行训练,并保存训练好的模型。步骤3-1包括:构造神经网络模型,所述模型包括卷积神经网络和深度核网络;所述模型将三个视频片段分别输入至卷积神经网络提取外观特征后,再输入至深度核网络提取时变特征,最后再融合三个视频片段的输出特征以获取对完整视频的行为预测;其中,深度核网络包括三个构造块,每个构造块通过三次操作对输入特征向量完成三次变换,第一次变换使用公式第二次变换使用公式其中x为输入特征向量,θ为激活函数,Z为基底向量组成的矩阵,||·||2表示向量的2范数,T表示矩阵的转置,前两次变换的组合用函数φ表示,第三次变换为步长为2的最大化池化,用以增加平移不变性及扩大感受野。对于第二次变换计算在使用反向传播算法训练网络参数阶段所需用到的梯度:令X=θ(ZTZ),并且L=l(Y),其中X,Y为矩阵,函数f的功能是求矩阵的次方,l为损失函数,L为损失值,此时已知损失值相对于矩阵Y的梯度目标是计算损失值相对于矩阵X梯度所述计算损失值相对于矩阵X梯度具体包括如下步骤:步骤3-1-1,对矩阵X进行特征分解,X=QΛQT,其中Q为正交矩阵,Λ为对角矩阵且对角线元素依次为矩阵X的D个特征值λ1,λ2,...,λD,λD表示第D个特征值;步骤3-1-2,计算得到步骤3-1-3,计算得到其中符号表示矩阵阿达马乘积,R是新引入的矩阵,其第i行第j列元素λi,λj为矩阵X的特征值。在实际训练过程中,可以在深度核网络中堆叠多层以取得更好的结果。步骤3-2包括:使用ImageNet数据集预训练卷积神经网络,并且使用无监督学习初始化深度核网络的参数;学习率值初始化为0.001,并且每1000次迭代后其值减半。步骤4包括:采集待检测视频并利用步骤2中的方法对视频进行预处理。步骤5中,将步骤4中得到的预处理后的视频数据作为输入,使用步骤3中训练好的神经网络模型对输入进行检测,判断输入的视频所属的类别。步骤6中,根据步骤5的识别结果就可以得到与待识别视频相似度最高的行为类别。本专利技术提出了一个名为时间分段卷积核网络的方法用于视频行为识别。本专利技术利用卷积神经网络提取视频的形态特征,并通过深度核网络提取视频的时变特征。与先前的方法相比,本专利技术的方法通过视频的空间和时间信息进行分别处理的方法实现了对可变长度的输入序列的处理。有益效果本专利技术提供的一种基于卷积神经网络和深度核网络的视频行为识别方法,有益效果在于:(1)本方法通过深度核网络完成对视频序列的建模。(2)本方法提出了一种端到端的通过矩阵反向传播实现核空间特征近似的训练方法。本方法通过深度核网络对视频中的多个稀疏视频片段进行处理,并融合所有片段的得分从而实现对整个视频的预测。附图说明下面结合附图和具体实施方式对本专利技术做更进一步的具体说明,本专利技术的上述和/或其他方面的优点将会变得更加清楚。图1为本专利技术的网络示意图。图2为深度核网络的构造块示意图。具体实施方式实施例参照图1所示,一种基于卷积神经网络和深度核网络的视频行为识别方法,具体包括如下步骤:步骤1:采集101类视频并按行为类别进行分类;步骤2:对筛选后的视频进行预处理;步骤3:用经过预处理后的数据训练模型;步骤4:采集待检测视频并进行预处理;步骤5:根据步骤3得到的训练好的模型用步骤4得到的预处理后的数据作为输入进行行为识别;步骤6:根据步骤5的识别结果就可以得到与待识别视频相似度最高的行为类别。步骤1对视频进行采集并分类,利用UCF-101数据集获得101类具有不同类别的视频集合。步骤2中为了满足深度学习模型对数据的要求,从而提高识别的准确性,将给定视频分割成三个持续时间相等的部分,从每个部分采样得到长度为T的视频片段,并且计算得到对应的光流场。接着在视频片段和光流场上裁剪,得到大小为H×W×c×T的连续彩色图像序列,以及大小为H×W×2L×T的光流场序列,其中H和W分别表示裁剪图像的高度和宽度,c表示彩色图像的通道数,L表示堆叠的光流场的数量。可以设置H=W=224,c=3,T=32,L=10。步骤3用101类不同类别的视频数据对模型进行训练,如图1所示结构图,图中Video指待处理的视频,本文档来自技高网...

【技术保护点】
1.一种基于卷积神经网络和深度核网络的视频行为识别方法,其特征在于,包括如下步骤:/n步骤1:采集视频并按行为类别进行分类;/n步骤2:对视频进行预处理;/n步骤3:用经过预处理后的视频数据训练模型;/n步骤4:采集待检测视频并进行预处理;/n步骤5:根据步骤3得到的训练好的模型,用步骤4得到的预处理后的数据作为输入进行行为识别;/n步骤6:根据步骤5的识别结果,得到与待识别视频相似度最高的行为类别。/n

【技术特征摘要】
1.一种基于卷积神经网络和深度核网络的视频行为识别方法,其特征在于,包括如下步骤:
步骤1:采集视频并按行为类别进行分类;
步骤2:对视频进行预处理;
步骤3:用经过预处理后的视频数据训练模型;
步骤4:采集待检测视频并进行预处理;
步骤5:根据步骤3得到的训练好的模型,用步骤4得到的预处理后的数据作为输入进行行为识别;
步骤6:根据步骤5的识别结果,得到与待识别视频相似度最高的行为类别。


2.根据权利要求1所述的方法,步骤2包括如下步骤:
步骤2-1,将采集的视频分割成三个部分,每个部分持续的时间相同;
步骤2-2,从分割的每个部分中采样得到长度为T的视频片段,并且计算得到对应的光流场;
步骤2-3,在视频片段和光流场上裁剪,得到大小为H×W×c×T的连续彩色图像序列,以及大小为H×W×2L×T的光流场序列,其中H和W分别表示裁剪图像的高度和宽度,c表示彩色图像的通道数,L表示堆叠的光流场的数量。


3.根据权利要求2所述的方法,其特征在于,步骤3包括如下步骤:
步骤3-1,构造神经网络模型;
步骤3-2,初始化神经网络模型;
步骤3-3,用步骤2得到的连续彩色图像序列以及光流或翘曲光流场序列对神经网络模型进行训练,并保存训练好的模型。


4.根据权利要求3所述的方法,其特征在于,步骤3-1包括:
构造神经网络模型,所述模型包括卷积神经网络和深度核网络;所述模型将三个视频片段分别输入至卷积神经网络提取外观特征后,再输入至深度核网络提取时变特征,最后再融合三个视频片段的输出特征以获取对完整视频的行为预测;
其中,深度核网络包括三个构造块,每个构造块通过三次操作对输入特征向量完成三次变换,第...

【专利技术属性】
技术研发人员:潘飞郭延文詹小雨过洁孙大钊侯天宇王韬
申请(专利权)人:南京猫头鹰智能科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1