一种基于时空融合特征和注意力机制的视频行为识别方法技术

技术编号:19934904 阅读:30 留言:0更新日期:2018-12-29 04:48
本发明专利技术公开了一种基于时空融合特征和注意力机制的视频行为识别方法,通过卷积神经网络Inception V3提取输入视频的时空融合特征,然后在在时空融合特征的基础上结合人类视觉系统中的注意力机制,使得网络能够根据视频内容自动分配权重,提取出视频帧序列中的关键帧,从视频整体上对行为进行识别,这样排出冗余信息对识别的干扰,且提高了视频行为识别的准确率。

【技术实现步骤摘要】
一种基于时空融合特征和注意力机制的视频行为识别方法
本专利技术属于行为识别
,更为具体地讲,涉及一种基于时空融合特征和注意力机制的视频行为识别方法。
技术介绍
行为识别相关的研究正日益在诸多应用场景中得到了广泛的引用,例如安全监控、自动驾驶、视频检索等。行为识别通常指从视频序列中识别出个体或群体的行为。通常具体的行为发生在连续的视频帧序列上,而不仅仅是单个视频帧。因此视频中的运动信息对行为的识别至关重要,如何有效地表征出视频中的时空特征是行为识别研究领域的一个热点。传统的行为识别有赖于从视频帧序列和光流序列中提取出的手工特征,例如SIFT、HOG、HOF等。近年来得益于深度学习强大的特征提取能力,许多人尝试采用深度学习的方法进行行为识别相关的研究并取得了一定的进展。视频作为一种复杂的媒体形式,自然地涉及到两方面的信息,视频帧序列中包含的空间场景信息和视频帧之间的运动信息。现在很多研究工作都是基于比较经典的Twostream结构,但是这种网络结构没有考虑到长时间范围视频帧之间的时序联系。JeffreyDonahue进一步提出了LRCN网络模型,利用LSTM进一步建模CNN卷积特征本文档来自技高网...

【技术保护点】
1.一种基于时空融合特征和注意力机制的视频行为识别方法,其特征在于,包括以下步骤:(1)、训练LSTM网络模型(1.1)、通过卷积神经网络Inception V3提取输入视频的时空融合特征设输入视频帧序列为X={x1,x2,…,xN},N表示输入视频的总帧数,对输入的相邻两帧依次提取光流,得到光流序列{f1,f2,…,fN‑1};从输入视频视频帧序列和光流序列中分别等间隔采样出n帧,n<<N;再通过卷积神经网络Inception V3提取这n帧输入视频帧序列的卷积特征序列fsta和光流序列的卷积特征序列fflow;最后以fsta为基准,将fflow拼接在fsta后面,从而生成时空融合特征,其中...

【技术特征摘要】
1.一种基于时空融合特征和注意力机制的视频行为识别方法,其特征在于,包括以下步骤:(1)、训练LSTM网络模型(1.1)、通过卷积神经网络InceptionV3提取输入视频的时空融合特征设输入视频帧序列为X={x1,x2,…,xN},N表示输入视频的总帧数,对输入的相邻两帧依次提取光流,得到光流序列{f1,f2,…,fN-1};从输入视频视频帧序列和光流序列中分别等间隔采样出n帧,n<<N;再通过卷积神经网络InceptionV3提取这n帧输入视频帧序列的卷积特征序列fsta和光流序列的卷积特征序列fflow;最后以fsta为基准,将fflow拼接在fsta后面,从而生成时空融合特征,其中,vi表示第i视频帧的时空融合特征向量,i=1,2,…,n;(1.2)、以注意力权重组合时空融合特征,得到加权时空融合特征并输入到LSTM网络;其中,t=1,2,…,T,T表示时刻总数;(1.3)、更新当前时刻LSTM网络状态;其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,表示点积运算,Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;(1.4)、LSTM网络根据当前时刻状态预测视频类别;计算当前时刻t时视频类别的预测概率分布其中,softmax(·)是多分类函数,Up、Wp、bp、d分别为待学习参数;(1.5)、重复...

【专利技术属性】
技术研发人员:徐杰余兴盛纾纬魏浩亮
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1