【技术实现步骤摘要】
一种基于时空特征融合深度学习网络的视频行为识别方法
本专利技术涉及视频行为识别方法,具体涉及一种基于时空特征融合深度学习网络的视频行为识别方法。
技术介绍
视频内容行为识别旨在对视频片段进行分类以确定行为类型。目前视频内容行为识别技术主要分为两大方向:采用传统提取特征的方式和使用深度学习建立端到端预测网络模型的方式。基于传统行为识别方法是先设计并提取相关视觉特征,然后对这些特征进行编码,最后采用统计机器学习中相关分类方法得到预测分类结果。深度学习网络模型大多是端到端模型,用卷积神经网络(ConvolutionalNeuralNetworks,CNN)、长短期记忆网络(LongShort-TermMemory,LSTM)等对数据集进行学习,学习到网络参数后对视频进行预测分类。现有的技术方案分别是C3D网络、双流网络模型和LRCN等;其中C3D网络利用时空信息的直接解决方案是对视频执行3D卷积。3D卷积是通过将3D内核卷积应用到视频中来实现的,是一种对2D-CNN的扩展,称作C3D(3D-CNN)其卷积核得到的特征图也是3D的,并没有融合,给定视频数据是RGB三通道,高h宽w,分辨率为h×w,C3D的卷积核边长k深度为d,即规格为k×k×d。比起2D-CNN,C3D显然更适合学习带有时序信息的图像数据(视频),对视频进行处理得到的多帧特征图经融合的输出;双流网络(Two-StreamNetwork)模型,是使用两个独立的时空CNN,通过后期融合将两个网络输出合并。空间网络从 ...
【技术保护点】
1.一种基于时空特征融合深度学习网络的视频行为识别方法,其特征包括以下步骤:/n(1)通过水平镜像反转、小角度旋转、裁剪三种方式来扩充数据集,小角度旋转是分别顺时针旋转30°、15°、-15°和-30°并采用独立的两个网络分别提取视频的时间和空间信息,所述网络由CNN和LSTM组成的。/n(2)对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络。/n(3)对采样的多个片段进行RGB色彩差异提取,处理后以得到RGB信息,/n(4)在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高视频图像帧中视觉主体的影响力。/n(5)进行光流帧提取,提取光流作为动态特征,充分挖掘视频行为的时间信息。将水平和垂直方向的光流场作为时间网络中CNN的输入,进一步挖掘视频行为分析的动态特征。/n(6)时间特征网络学习了光流和RGB色彩差异两种特征。同时,将视频数据采样成多个片段分别输入到两个网络中/n(7)视频帧的RGB信息进入到空间特征网络,得到空间特征预测得分,而光流输入到时间特征网络进行融合,得到时间特征预测得分/n(8)在拿到空间和时间特征预测得分后,进 ...
【技术特征摘要】
1.一种基于时空特征融合深度学习网络的视频行为识别方法,其特征包括以下步骤:
(1)通过水平镜像反转、小角度旋转、裁剪三种方式来扩充数据集,小角度旋转是分别顺时针旋转30°、15°、-15°和-30°并采用独立的两个网络分别提取视频的时间和空间信息,所述网络由CNN和LSTM组成的。
(2)对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络。
(3)对采样的多个片段进行RGB色彩差异提取,处理后以得到RGB信息,
(4)在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高视频图像帧中视觉主体的影响力。
(5)进行光流帧提取,提取光流作为动态特征,充分挖掘视频行为的时间信息。将水平和垂直方向的光流场作为时间网络中CNN的输入,进一步挖掘视频行为分析的动态特征。
(6)时间特征网络学习了光流和RGB色彩差异两种特征。同时,将视频数据采样成多个片段分别输入到两个网络中
(7)视频帧的RGB信息进入到空间特征网络,得到空间特征预测得分,而光流输入到时间特征网络进行融合,得到时间特征预测得分
(8)在拿到空间和时间特征预测得分后,进行融合成为FSTFN最后的预测输出。
2.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述视频采用分段的方式为先将视频平均划分成N+1段,编号0,1,…,N,在[1,N]段范围内对片段的前半部分进行连续采样,以此保留视频的时间特征。即除去视频的开头段,取剩下N段(对应编号1,2,…,N),对这N段区间的前1/2区间进行连续采样。设视频长度为T,每段起始时间为kT/(N+1),只对该段前1/2采样,采样的区间为:
3.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述光流帧提取采用Lucas-Kanade密集光流算法,计算时刻t和时刻t+δ_t两帧间各个像素点的位移。
其算法步骤如下:
a)、读入视频;
b)、对视频进行帧分解,分解为T帧;
c)、对图片灰度化;
d)、求解水平与垂直方向梯度fw、fh;
e)、foriinT-1:取第i帧和i+1帧图像I求解时间方向的梯度ft;
for遍历图像区域:
for遍历图像的3×3子区域:
对九个像素联立方程,进行最小二乘拟合;
按式求解得到两个方向的光流
保存该帧光流场;
f)、输出视频所有光流帧特征;
g)、调用分段预处理算法...
【专利技术属性】
技术研发人员:杨戈,
申请(专利权)人:北京师范大学珠海分校,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。