一种基于注意力机制的视频分类方法技术

技术编号:16547323 阅读:148 留言:0更新日期:2017-11-11 12:00
本发明专利技术公开了一种基于注意力机制的视频分类方法,通过卷积神经网络CNN提取视频的空间特征,以注意力权重组合所有的空间特征送入到长短时记忆网络LSTM提取视频的时间特征,最后采用多分类函数对视频内容进行分类。在LSTM网络中引入的注意力机制能够模拟人脑的识别功能,将不同的视频内容区别对待,有效提高视频分类的准确性。

A video classification method based on attention mechanism

The invention discloses a method for classification of attention mechanism based video by convolution neural network CNN extraction of spatial characteristics of the video, the attention weight combined spatial characteristics of all time into video features extraction length memory network LSTM, the multi class function to classify the video content. The attention mechanism is introduced in the LSTM network can simulate the human recognition function, the video content of different treatment, effectively improve the accuracy of video classification.

【技术实现步骤摘要】
一种基于注意力机制的视频分类方法
本专利技术属于光通信
,更为具体地讲,涉及一种基于注意力机制的视频分类方法。
技术介绍
近年来,得益于深度学习强大的特征提取能力,视频内容的识别和分析取得了突破性进展。视频内容识别的核心在于视频特征的提取,视频特征是视频本身所具有的物理性质,能够从不同的角度反映视频内容。Karpathy采用卷积神经网络提取视频的空间特征,并在时间维度上将卷积神经网络进行扩展,从而提取视频的空时特征。Ji则直接将二维卷积核扩展至三维卷积核,捕获相邻帧之间的运动信息。结合神经学方面的研究,Simonyan和Zisserman提出双通道CNN模型,一通道的CNN提取视频的空间特征,捕获视觉目标信息,一通道的CNN提取视频的短时间特征,捕获目标运动信息。尽管如此,这些方法只能捕捉视频的短时信息,忽视了视频的长时信息。虽然卷积神经网络能够提取鲁棒的空间特征,但却无法处理序列问题。尤其是对于一段长时间的视频内容,视频内容的识别和分析需要视频在更长时间范围内的时间特征。JeffreyDonahue在2014年提出LRCN模型,该模型由空间特征提取和时间特征提取两部分组成。空本文档来自技高网...
一种基于注意力机制的视频分类方法

【技术保护点】
一种基于注意力机制的视频分类方法,其特征在于,包括以下步骤:(1)、训练LSTM网络模型(1.1)、通过卷积神经网络CNN提取输入视频的空间特征设输入视频为X={x1,x2,…,xN},N表示输入视频的总帧数,通过卷积神经网络CNN提取输入视频的空间特征为V={v1,v2,…,vN},vi表示第i帧视频图像的特征向量,i=1,2,…,N;(1.2)、以注意力权重

【技术特征摘要】
1.一种基于注意力机制的视频分类方法,其特征在于,包括以下步骤:(1)、训练LSTM网络模型(1.1)、通过卷积神经网络CNN提取输入视频的空间特征设输入视频为X={x1,x2,…,xN},N表示输入视频的总帧数,通过卷积神经网络CNN提取输入视频的空间特征为V={v1,v2,…,vN},vi表示第i帧视频图像的特征向量,i=1,2,…,N;(1.2)、以注意力权重组合空间特征,得到加权空间特征并输入到LSTM网络;其中,t=1,2,…,T,T表示时刻总数;(1.3)、更新当前时刻LSTM网络状态;其中,ft、it、ot分别表示LSTM网络的遗忘门、输入门和输出门的计算结果,ht-1和ct-1分别表示上一时刻隐藏单元状态和记忆单元状态,ht和ct分别表示当前时刻隐藏单元状态和记忆单元状态,σ(·)是sigmoid函数,表示点积运算,Uf、Ui、Uc,Af、Ai、Ac,bi、bf、bc分别为待学习参数;(1.4)、LSTM网络根据当前时刻状态预测视频类别;计算当前时刻t时视频类别的预测概率分布其中,softmax(·)是多分类函数,Up、Wp、bp、d分别为待学习参数;(1.5)、重复步骤(1.2)-(1.4),分别预测出其余T-1个时刻的视频类别的预测概率分布pt;(1.6)、计算第T次的预测概分布值pT和视频标识之间的误差Δε,采用BPTT算法将误差Δε进行反向传递进而更新LSTM网络中待学习参数,完成本轮迭代;(1.7)、当本轮迭代完成后,按照步骤(1.2)-(1.6)所述...

【专利技术属性】
技术研发人员:徐杰何庆强李林科余兴
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1