一种基于时空融合特征和注意力机制的视频行为识别方法技术

技术编号:19934904 阅读:19 留言:0更新日期:2018-12-29 04:48
本发明专利技术公开了一种基于时空融合特征和注意力机制的视频行为识别方法,通过卷积神经网络Inception V3提取输入视频的时空融合特征,然后在在时空融合特征的基础上结合人类视觉系统中的注意力机制,使得网络能够根据视频内容自动分配权重,提取出视频帧序列中的关键帧,从视频整体上对行为进行识别,这样排出冗余信息对识别的干扰,且提高了视频行为识别的准确率。

【技术实现步骤摘要】
一种基于时空融合特征和注意力机制的视频行为识别方法
本专利技术属于行为识别
,更为具体地讲,涉及一种基于时空融合特征和注意力机制的视频行为识别方法。
技术介绍
行为识别相关的研究正日益在诸多应用场景中得到了广泛的引用,例如安全监控、自动驾驶、视频检索等。行为识别通常指从视频序列中识别出个体或群体的行为。通常具体的行为发生在连续的视频帧序列上,而不仅仅是单个视频帧。因此视频中的运动信息对行为的识别至关重要,如何有效地表征出视频中的时空特征是行为识别研究领域的一个热点。传统的行为识别有赖于从视频帧序列和光流序列中提取出的手工特征,例如SIFT、HOG、HOF等。近年来得益于深度学习强大的特征提取能力,许多人尝试采用深度学习的方法进行行为识别相关的研究并取得了一定的进展。视频作为一种复杂的媒体形式,自然地涉及到两方面的信息,视频帧序列中包含的空间场景信息和视频帧之间的运动信息。现在很多研究工作都是基于比较经典的Twostream结构,但是这种网络结构没有考虑到长时间范围视频帧之间的时序联系。JeffreyDonahue进一步提出了LRCN网络模型,利用LSTM进一步建模CNN卷积特征在长时间范围内的时序联系。在LRCN网络模型中,每一时刻输入的是单个的视频帧,缺乏对全局视频帧的描述。而且视频帧序列中存在大量的冗余信息,这种简单的输入方式未能利用视频帧序列中的关键帧信息。视频行为识别相关的研究一直是计算机视觉研究领域的热点,传统的识别方法高度依赖提取出的视频特征,因此很多人致力于设计出足够鲁棒的特征。很多图像处理领域的特征进一步拓展可以挖掘视频的时域特征。Laptev将2D哈里斯角点拓展到三维以找出视频中的时空兴趣点。Dollar在3DHarris角点的基础上,首先单独在时间维和空间维采用Gabor滤波器滤波,这样检测出的兴趣点的数目会随着时间和空间的局部领域尺寸的改变而改变。为了更有效地描述局部特征点信息,Paul将传统的SIFT拓展到3D-SIFT。Ronald从多个时空兴趣点中提取出HOG和HOF特征,然后采用词袋模型对特征进行编码。Heng通过提取关键点的稠密轨迹,和每个点的HOG、HOF、MBH特征进一步提高了识别准确率。上述的手工特征一定程度上反应了视频内容信息,但是手工特征的设计需要大量的专业知识和经验。近年来,得益于深度学习强大的特征提取能力,视频行为的识别和分析取得了突破性进展。视频行为识别的核心在于视频特征的提取,Kpapathy首先采用卷积神经网络提取视频帧的卷积特征,并进一步在时域上进行拓展。Ji则直接将二维卷积拓展到三维,同时从空间和时间两个维度提取视频特征,以提取视频相邻帧之间运动信息。结合人类神经学方面的研究,Simonyan提出了Twostream模型,分别提取视频帧序列特征和光流序列特征,融合两个通道的识别结果做识别。尽管如此,这些基于深度学习的方法只考虑到了短时间范围内的视频帧前后时序联系,忽略了视频的长时信息。虽然卷积神经网络能够提取视频的空间特征,但无法处理序列问题。因此,提出了一种基于注意力机制的视频行为识别方法,该方法从全局考虑视频信息,同时采用注意力机制选择性的关注视频中的有效信息,降低无效信息的干扰,从而实现视频行为识别。本专利技术在此基础上,提出了的注意力机制和时空融合特征,本文提出基于注意力机制的时空融合模型。首先从视频内在的时空特性出发,分别提取出视频帧序列和光流序列的卷积特征,融合成为时空融合特征,在时空融合特征的基础上,再借鉴人类视觉系统中的注意力机制,使得网络能够根据视频内容自动分配权重,提取出视频帧序列中的关键帧内容。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于时空融合特征和注意力机制的视频行为识别方法,在时空融合特征的基础上结合人类视觉系统中的注意力机制,使得网络能够根据视频内容自动分配权重,提取出视频帧序列中的关键帧,从而实现视频行为识别。为实现上述专利技术目的,本专利技术一种基于时空融合特征和注意力机制的视频行为识别方法,其特征在于,包括以下步骤:(1)、训练LSTM网络模型(1.1)、通过卷积神经网络InceptionV3提取输入视频的时空融合特征设输入视频帧序列为X={x1,x2,…,xN},N表示输入视频的总帧数,对输入的相邻两帧依次提取光流,得到光流序列{f1,f2,…,fN-1};从输入视频帧序列和光流序列中分别等间隔采样出n帧,n<<N;再通过卷积神经网络InceptionV3提取这n帧输入视频帧序列的卷积特征序列fsta和光流序列的卷积特征序列fflow;最后以fsta为基准,将fflow拼接在fsta后面,从而生成时空融合特征,其中,vi表示第i视频帧的时空融合特征向量,i=1,2,…,n;(1.2)、以注意力权重组合时空融合特征,得到加权时空融合特征并输入到LSTM网络;其中,t=1,2,…,T,T表示时刻总数;(1.3)、更新当前时刻LSTM网络状态;其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,表示点积运算,Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;(1.4)、LSTM网络根据当前时刻状态预测视频类别;计算当前时刻t时视频类别的预测概率分布其中,softmax(·)是多分类函数,Up、Wp、bp、d分别为待学习参数;(1.5)、重复步骤(1.2)-(1.4),分别预测出其余T-1个时刻的视频行为类别的概率分布pt;(1.6)、计算第T次的预测概率分布值pT和视频标签之间的误差Δε;计算网络模型损失的交叉熵其中,M为本轮学习时使用的视频数,P为数据集中包含的视频的类别数,为某一视频的标签;将交叉熵和模型复杂度损失Lλ之和作为网络的整体损失,然后采用BPTT算法将网络损失进行反向传递进而更新LSTM网络中待学习参数,完成本轮迭代;(1.7)、当本轮迭代完成后,按照步骤(1.2)-(1.6)所述方法进行下一轮迭代,直到完成所有迭代,得到训练好的LSTM网络模型;(2)、利用训练后的LSTM网络模型对视频进行行为识别(2.1)、从待检测视频中提取出视频帧序列和光流序列,并按照步骤(1.1)所示提取出长度为n的时空融合特征序列,作为一条测试数据;(2.2)、将测试数据按照步骤(1.1)-(1.5)所述方法进行测试,将概率最大的类别作为测试视频行为的预测结果。本专利技术的专利技术目的是这样实现的:本专利技术一种基于时空融合特征和注意力机制的视频行为识别方法,通过卷积神经网络InceptionV3提取输入视频的时空融合特征,然后在在时空融合特征的基础上结合人类视觉系统中的注意力机制,使得网络能够根据视频内容自动分配权重,提取出视频帧序列中的关键帧,从视频整体上对行为进行识别,这样排出冗余信息对识别的干扰,且提高了视频行为识别的准确率。同时,本专利技术一种基于时空融合特征和注意力机制的视频行为识别方法还具有以下有益效果:(1)、从视频内在的时空融合特性出发,通过提取视频的时空融合特征能够更有效地利用视频信息,从而提高视频行为识别的本文档来自技高网
...

【技术保护点】
1.一种基于时空融合特征和注意力机制的视频行为识别方法,其特征在于,包括以下步骤:(1)、训练LSTM网络模型(1.1)、通过卷积神经网络Inception V3提取输入视频的时空融合特征设输入视频帧序列为X={x1,x2,…,xN},N表示输入视频的总帧数,对输入的相邻两帧依次提取光流,得到光流序列{f1,f2,…,fN‑1};从输入视频视频帧序列和光流序列中分别等间隔采样出n帧,n<<N;再通过卷积神经网络Inception V3提取这n帧输入视频帧序列的卷积特征序列fsta和光流序列的卷积特征序列fflow;最后以fsta为基准,将fflow拼接在fsta后面,从而生成时空融合特征,其中,vi表示第i视频帧的时空融合特征向量,i=1,2,…,n;

【技术特征摘要】
1.一种基于时空融合特征和注意力机制的视频行为识别方法,其特征在于,包括以下步骤:(1)、训练LSTM网络模型(1.1)、通过卷积神经网络InceptionV3提取输入视频的时空融合特征设输入视频帧序列为X={x1,x2,…,xN},N表示输入视频的总帧数,对输入的相邻两帧依次提取光流,得到光流序列{f1,f2,…,fN-1};从输入视频视频帧序列和光流序列中分别等间隔采样出n帧,n<<N;再通过卷积神经网络InceptionV3提取这n帧输入视频帧序列的卷积特征序列fsta和光流序列的卷积特征序列fflow;最后以fsta为基准,将fflow拼接在fsta后面,从而生成时空融合特征,其中,vi表示第i视频帧的时空融合特征向量,i=1,2,…,n;(1.2)、以注意力权重组合时空融合特征,得到加权时空融合特征并输入到LSTM网络;其中,t=1,2,…,T,T表示时刻总数;(1.3)、更新当前时刻LSTM网络状态;其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,表示点积运算,Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;(1.4)、LSTM网络根据当前时刻状态预测视频类别;计算当前时刻t时视频类别的预测概率分布其中,softmax(·)是多分类函数,Up、Wp、bp、d分别为待学习参数;(1.5)、重复...

【专利技术属性】
技术研发人员:徐杰余兴盛纾纬魏浩亮
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1