一种基于时空特征融合深度学习网络的视频行为识别方法技术

技术编号:26378004 阅读:34 留言:0更新日期:2020-11-19 23:46
本发明专利技术公开了一种基于时空特征融合深度学习网络的视频行为识别方法采用独立的两个网络分别提取视频的时间和空间信息,每个网络都在CNN的基础上加入了LSTM学习视频时间信息,并以一定的策略将时间、空间信息融合。FSTFN比Tran提出的不引入时空网络的网络模型在数据集上准确率提升了7.5%,比普通双流网络模型数据集上准确率提升了4.7%且对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络,通过覆盖整个视频的时间范围,解决了视频行为识别存在的长时依赖问题,在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高了视频图像帧中视觉主体的影响力,较好地利用了视频的空间特征。

【技术实现步骤摘要】
一种基于时空特征融合深度学习网络的视频行为识别方法
本专利技术涉及视频行为识别方法,具体涉及一种基于时空特征融合深度学习网络的视频行为识别方法。
技术介绍
视频内容行为识别旨在对视频片段进行分类以确定行为类型。目前视频内容行为识别技术主要分为两大方向:采用传统提取特征的方式和使用深度学习建立端到端预测网络模型的方式。基于传统行为识别方法是先设计并提取相关视觉特征,然后对这些特征进行编码,最后采用统计机器学习中相关分类方法得到预测分类结果。深度学习网络模型大多是端到端模型,用卷积神经网络(ConvolutionalNeuralNetworks,CNN)、长短期记忆网络(LongShort-TermMemory,LSTM)等对数据集进行学习,学习到网络参数后对视频进行预测分类。现有的技术方案分别是C3D网络、双流网络模型和LRCN等;其中C3D网络利用时空信息的直接解决方案是对视频执行3D卷积。3D卷积是通过将3D内核卷积应用到视频中来实现的,是一种对2D-CNN的扩展,称作C3D(3D-CNN)其卷积核得到的特征图也是3D的,并没有融合,给定视频数据是RGB三通道,高h宽w,分辨率为h×w,C3D的卷积核边长k深度为d,即规格为k×k×d。比起2D-CNN,C3D显然更适合学习带有时序信息的图像数据(视频),对视频进行处理得到的多帧特征图经融合的输出;双流网络(Two-StreamNetwork)模型,是使用两个独立的时空CNN,通过后期融合将两个网络输出合并。空间网络从单视频RGB帧进行行为识别,而时间网络则从密集的光流中进行识别行为,双流网络中空间CNN结构类似Karpathy中的单帧结构,即给定一个行为视频,每个视频帧将分别通过空间网络,并为每个帧分配一个行为标签,对于同一个行为视频的所有帧,给定的行为标签是一样,即这个行为的标签,双流网络中时间CNN则对几个连续帧之间的光流位移场进行分析,以学习时间特征,对输出的时间特征和空间网络识别得到图像预测。LRCN(Long-termRecurrentConvolutionalNetworks)与固定数量输入帧的堆栈式学习的网络不同,它不限于固定长度输入帧,可以学习识别更复杂的行为,视频有序帧图像进入网络模型,首先应用2D-CNN获取图像帧的特征图,之后把这些特征图按时序输入后面的LSTM并得到一组时序向量。这种网络模型有很好的适应性,因为可以看到该网络模型是对CNN和LSTM的结合,输入既可以是单帧图像,也可是时序视频,与之对应得到的输出是图像预测或序列预测。以上方法均存在长时依赖问题和空间特征挖掘不充分的问题,由于行为有持续性,要想准确识别一个行为,往往依赖一个较长的时间片段,没有长时间范围的分析,容易把一种行为识别为其他行为,虽然长时的片段分析可以提高识别准确率,但过长的时间分析带来的是更复杂的网络结构和成倍的训练量;而且目前研究对视频动态时间特征的提取明显不足,仅通过C3D或循环神经网络从RGB(Red-Green-Blue)中获取,但单一特征还是不足以充分提取视频时间维度的动态特征,对空间特征的提取同样不够充分,现有网络模型容易混淆产生误判。
技术实现思路
为解决上述问题,提出通过两个网络分别提取时间、空间信息并加以融合,采用多片段输入的方式来处理较大范围视频帧信息,最后引入软注意力机制来减少由于背景高度相似带来的识别错误的一种基于时空特征融合深度学习网络的视频行为识别方法;一种基于时空特征融合深度学习网络的视频行为识别方法,其特征包括以下步骤:(1)通过水平镜像反转、小角度旋转、裁剪三种方式来扩充数据集,小角度旋转是分别顺时针旋转30°、15°、-15°和-30°并采用独立的两个网络分别提取视频的时间和空间信息,所述网络由CNN和LSTM组成的。(2)对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络。(3)对采样的多个片段进行RGB色彩差异提取,处理后以得到RGB信息,(4)在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高视频图像帧中视觉主体的影响力。(5)进行光流帧提取,提取光流作为动态特征,充分挖掘视频行为的时间信息。将水平和垂直方向的光流场作为时间网络中CNN的输入,进一步挖掘视频行为分析的动态特征。(6)时间特征网络学习了光流和RGB色彩差异两种特征。同时,将视频数据采样成多个片段分别输入到两个网络中(7)视频帧的RGB信息进入到空间特征网络,得到空间特征预测得分,而光流输入到时间特征网络进行融合,得到时间特征预测得分(8)在拿到空间和时间特征预测得分后,进行融合成为FSTFN最后的预测输出进一步地、所述视频采用分段的方式为先将视频平均划分成N+1段,编号0,1,…,N,在[1,N]段范围内对片段的前半部分进行连续采样,以此保留视频的时间特征。即除去视频的开头段,取剩下N段(对应编号1,2,…,N),对这N段区间的前1/2区间进行连续采样。设视频长度为T,每段起始时间为kT/(N+1),只对该段前1/2采样,采样的区间为:进一步地、所述光流帧提取采用Lucas-Kanade密集光流算法,计算时刻t和时刻t+δ_t两帧间各个像素点的位移。其算法步骤如下:a)、读入视频;b)、对视频进行帧分解,分解为T帧;c)、对图片灰度化;d)、求解水平与垂直方向梯度fw、fh;e)、foriinT-1:取第i帧和i+1帧图像I求解时间方向的梯度ft;for遍历图像区域:for遍历图像的3×3子区域:对九个像素联立方程,进行最小二乘拟合;按式求解得到两个方向的光流保存该帧光流场;f)、输出视频所有光流帧特征;g)、调用分段预处理算法,对光流场图像分段。进一步地、所述RGB色彩差异提取的计算方式为首先把相邻帧P_t与P_(t-1)对应像素点的色彩三通道分量作差得到的色彩差异矩阵〖P_diff〗_t,对于宽高规格为w×h的图片有:式中x∈[0,w),y∈[0,h),进而对连续5帧的P_diff叠加得到RGB色彩差异。其算法步骤如下:a)、读入视频;b)、对视频进行帧分解分解为T帧;c)、foriin[0,T-1]://遍历每一帧;取第i帧和i+1帧图像;for遍历图像每个像素点;求解两帧之间R、G、B三个色彩通道值的差保存该帧RGB色彩差异;d)、输出视频所有RGB色彩差异特征图像;e)、调用分段预处理算法,对光流场图像分段。进一步地、所述注意力机制是FSTFN在CNN和LSTM之间引入了的,注意力机制包含软注意力(SoftAttention)机制与硬注意力(HardAttention)机制,前者是对图像或特征图每个像素分配注意力权重[0,1];后者要么是0或1本文档来自技高网
...

【技术保护点】
1.一种基于时空特征融合深度学习网络的视频行为识别方法,其特征包括以下步骤:/n(1)通过水平镜像反转、小角度旋转、裁剪三种方式来扩充数据集,小角度旋转是分别顺时针旋转30°、15°、-15°和-30°并采用独立的两个网络分别提取视频的时间和空间信息,所述网络由CNN和LSTM组成的。/n(2)对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络。/n(3)对采样的多个片段进行RGB色彩差异提取,处理后以得到RGB信息,/n(4)在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高视频图像帧中视觉主体的影响力。/n(5)进行光流帧提取,提取光流作为动态特征,充分挖掘视频行为的时间信息。将水平和垂直方向的光流场作为时间网络中CNN的输入,进一步挖掘视频行为分析的动态特征。/n(6)时间特征网络学习了光流和RGB色彩差异两种特征。同时,将视频数据采样成多个片段分别输入到两个网络中/n(7)视频帧的RGB信息进入到空间特征网络,得到空间特征预测得分,而光流输入到时间特征网络进行融合,得到时间特征预测得分/n(8)在拿到空间和时间特征预测得分后,进行融合成为FSTFN最后的预测输出。/n...

【技术特征摘要】
1.一种基于时空特征融合深度学习网络的视频行为识别方法,其特征包括以下步骤:
(1)通过水平镜像反转、小角度旋转、裁剪三种方式来扩充数据集,小角度旋转是分别顺时针旋转30°、15°、-15°和-30°并采用独立的两个网络分别提取视频的时间和空间信息,所述网络由CNN和LSTM组成的。
(2)对视频采用分段的方式,每一个视频样本采样多个片段,输入CNN和LSTM组成的网络。
(3)对采样的多个片段进行RGB色彩差异提取,处理后以得到RGB信息,
(4)在CNN末端引入视觉注意力机制,降低非视觉主体在网络模型中的权值,提高视频图像帧中视觉主体的影响力。
(5)进行光流帧提取,提取光流作为动态特征,充分挖掘视频行为的时间信息。将水平和垂直方向的光流场作为时间网络中CNN的输入,进一步挖掘视频行为分析的动态特征。
(6)时间特征网络学习了光流和RGB色彩差异两种特征。同时,将视频数据采样成多个片段分别输入到两个网络中
(7)视频帧的RGB信息进入到空间特征网络,得到空间特征预测得分,而光流输入到时间特征网络进行融合,得到时间特征预测得分
(8)在拿到空间和时间特征预测得分后,进行融合成为FSTFN最后的预测输出。


2.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述视频采用分段的方式为先将视频平均划分成N+1段,编号0,1,…,N,在[1,N]段范围内对片段的前半部分进行连续采样,以此保留视频的时间特征。即除去视频的开头段,取剩下N段(对应编号1,2,…,N),对这N段区间的前1/2区间进行连续采样。设视频长度为T,每段起始时间为kT/(N+1),只对该段前1/2采样,采样的区间为:





3.根据权利要求1所述的一种基于时空特征融合深度学习网络的视频行为识别方法,其特征在于:所述光流帧提取采用Lucas-Kanade密集光流算法,计算时刻t和时刻t+δ_t两帧间各个像素点的位移。
其算法步骤如下:
a)、读入视频;
b)、对视频进行帧分解,分解为T帧;
c)、对图片灰度化;
d)、求解水平与垂直方向梯度fw、fh;
e)、foriinT-1:取第i帧和i+1帧图像I求解时间方向的梯度ft;
for遍历图像区域:
for遍历图像的3×3子区域:
对九个像素联立方程,进行最小二乘拟合;
按式求解得到两个方向的光流
保存该帧光流场;
f)、输出视频所有光流帧特征;
g)、调用分段预处理算法...

【专利技术属性】
技术研发人员:杨戈
申请(专利权)人:北京师范大学珠海分校
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1