一种基于时空及通道的多注意力机制视频描述方法技术

技术编号:19935006 阅读:18 留言:0更新日期:2018-12-29 04:50
本发明专利技术公开了一种基于时空及通道的多注意力机制视频描述方法,通过CNN网络对视频进行视频特征提取,再基于多注意力网络对视频特征和编码上一时刻的输出进行计算,从而得到视频特征在时域、空域及通道上的注意力权重,再将得三组权重再次与视频特征进行计算得到融合的特征,这样我们就能得到更加有效的视频特征,最后将融合的特征行编码输出,得到与视频内容更加一致的描述。

【技术实现步骤摘要】
一种基于时空及通道的多注意力机制视频描述方法
本专利技术属于光通信
,更为具体地讲,涉及一种基于时空及通道的多注意力机制视频描述方法。
技术介绍
视频描述是计算机视觉和自然语言处理两个领域的研究,近年来受到了极大的关注。Venugopalan在2014年出了基于“编码-解码”框架的视频描述模型。论文中的编码模型首先对视频单帧利用CNN提取特征,然后分别采取了均值池化和时序编码的两种编码模型。虽然该模型成功的应用在了视频描述中,但视频描述模型仍存在以下一些问题:第一个问题是没有对视频特征进行有效的利用。论文中视频特征只在首次解码时使用,而后续时刻并未利用到视频特征,这导致了当时序增加时视频特征对于单词预测的影响减弱,由此会使模型语句生成能力的降低。对于该问题一种直接的解决方法是每次都将视频特征加入,但视频特征由于是连续多张的图像,如果每时刻仍用均值池化的方式送入解码模型,显然这样仍没有有效的对视频特征进行利用。KelvinXu在图像描述上提出了注意力机制的图像描述模型,通过注意力机制在每次预测单词之前会对每个图像的每个区域进行权重分配,这使得每次预测时使用的特征是不同的,利用该思想,论文提出了基于时域注意力机制的视频描述模型。其模型在每一次进行单词预测时,对所有视频帧的特征分配权重并求和,实验表明,这样能够有效的利用视频的特征信息。第二个问题是视觉内容特征与语句描述的一致性问题。第一个问题虽然使用基于时域注意力的方法提升了视频特征的利用,但是更深一步来说,这种方式仍未充分的对视频特征和语句描述之间的关系进行建模,由此带来的第二问题就是如何保证视觉内容特征语句描述的一致性。视频描述任务在基于深度学习的方法下得到了突破性的发展,同时基于视觉注意力机制的技术也成功的应用于视频描述模型,有效的解决了上面所说的第一个问题。视觉注意力机制广泛的应用于图像视频描述任务中,其主要依据是人类视觉并不会一次性处理整个视觉输入,而是只会关注重要的部分信息。基于这样一个合理的假设,目前的描述模型通常不会使用图像或视频的静态编码特征,而是通过注意力利用句子上下文信息动态提取图像特征。因此视觉注意力是一种在整个时序上结合上下文信息动态提取特征的编码机制。目前的注意力机制主要有基于时域和空域的注意力机制,在此基础之上,我们这两种注意力机制做更进一步的改进,利用CNN网络的本质特性,提出了通道注意力。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于时空及通道的多注意力机制视频描述方法,充分利用视频的各种特征,保证视觉特征和语句描述的一致性,提升模型效果。为实现上述专利技术目的,本专利技术一种基于时空及通道的多注意力机制视频描述方法,其特征在于,包括以下步骤:(1)、从视频库中随机提取M部视频,再将M部视频同时输入至神经网络CNN;(2)、训练基于注意力机制的神经网络LSTM设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,h0初始化为0向量;(2.1)、利用神经网络CNN提取第I部视频的视频特征fCNN(I);fCNN(I)=VI其中,VI={v1,v2,…,vN},N表示第I部视频的总帧数,vi表示第i帧的视频特征,vi∈RK*K*C,K为CNN网络输出特征图大小,C为CNN网络输出特征图的通道数量,其大小由网络结构决定;(2.2)、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重在当前时刻t,对第i帧视频特征vi进行空间转换,得到vi={ri1,ri2,…rij,…,rik},rij表示第i帧视频的j个区域特征,j=1,2,…,k;再利用rij计算空域注意力权重其中,Watt-s,Uatt-t,batt-s为LSTM待训参数;(2.3)、计算第I部视频在当前时刻t时的通道注意力权重β;将第I部视频的视频特征VI变换为UI,UI={u1,u2,…,uC},再对UI进行平均池化,得到当前时刻t时第I部视频的通道特征向量其中,ζC是uC的平均值,表示的是该通道特征值;则当前时刻t时的通道注意力权重βt为:βt=softmax(W'bt+b')其中,表示外积,表示对矩阵和向量进行广播上的相加,Watt-c,bc,Whc,W',b'为LSTM待训参数;(2.4)、计算第I部视频在当前时刻t时的时域注意力权重对第I部视频的视频特征VI进行池化,得到VI'={v1',v'2,…,v'N},再计算当前时刻t时的时域注意力权重其中,Watt-t,Uatt-t,batt-t为LSTM待训参数;(2.5)、将步骤(2.2)-(2.4)中得到的三个权重因子,分别作用到V上,得到第I部视频在当前时刻t时的输入特征zt;(2.6)、将ht-1,zt,wt-1送入LSTM网络中,得到当前时刻t时的LSTM输出和单词输出;ht=fLSTM(ht-1,zt,wt-1)yt~pt=softmax(Weht+b)其中,We,b为LSTM待训参数;wt-1表示的是单词yt-1的词向量,pt表示单词的概率分布;(2.7)、同理,按照步骤(2.1)-(2.6)所述方法,并行处理其余部视频,得到其余部视频在当前时刻t时的LSTM输出和单词输出;(2.8)、令t=t+1,按照步骤(2.1)-(2.7)所述方法并行处理M部视频,得到M部视频在下一时刻时的LSTM输出和单词输出,然后依次类推,直到得到T个时刻下的LSTM输出和单词输出;(2.9)、利用T个时刻下的LSTM输出和单词输出建立模型损失函数;其中,PIt表示当前时刻t时第I部视频中单词的概率分布,Ω表示LSTM中所有待训参数;(2.10)、利用梯度下降算法求解模型损失函数,以达到最小化损失,从而得到新参数Ω*;Ω*=argmaxLy其中,Ω*表示神经网络LSTM中所有训练后得到的新参数;再用Ω*更新Ω更新为Ω*,结束本次训练;(2.11)、重复步骤(1)-(2.10),完成神经网络LSTM的H次训练,得到训练好的神经网络LSTM;(3)、将待检测视频按照步骤(2.1)-(2.5)所述方法进行处理,将处理后的结果作为LSTM的输入特征,并输入至LSTM,预测出每一时刻的单词yt,再将每一时刻的单词按顺序输出:sentence={y1,y2,......,yT},得到待检测视频的语义描述。本专利技术的专利技术目的是这样实现的:本专利技术一种基于时空及通道的多注意力机制视频描述方法,通过CNN网络对视频进行视频特征提取,再基于多注意力网络对视频特征和编码上一时刻的输出进行计算,从而得到视频特征在时域、空域及通道上的注意力权重,再将得三组权重再次与视频特征进行计算得到融合的特征,这样我们就能得到更加有效的视频特征,最后将融合的特征行编码输出,得到与视频内容更加一致的描述。同时,本专利技术一种基于时空及通道的多注意力机制视频描述方法还具有以下有益效果:(1)、通过使用多注意力机制的方法对视频特征进行提取,相比于传统方法中对视频进行均值池化的方式能够提取更有效的视频特征。(2)、形成了端到端的描述模型,相比较于传统方法中需要先提取特征,再使用模板描述的两个步骤分开的方法,形成了同一的整体框架,简化处理步骤,提升效率,同时效果更好。(3)、构建的模型为基于深度学习的模型框架,相比于传统方法中模本文档来自技高网
...

【技术保护点】
1.一种基于时空及通道的多注意力机制视频描述方法,其特征在于,包括以下步骤:(1)、从视频库中随机提取M部视频,再将M部视频同时输入至神经网络CNN;(2)、训练基于注意力机制的神经网络LSTM设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,h0初始化为0向量;(2.1)、利用神经网络CNN提取第I部视频的视频特征fCNN(I);fCNN(I)=VI其中,VI={v1,v2,…,vN},N表示第I部视频的总帧数,vi表示第i帧的视频特征,vi∈RK*K*C,C为CNN网络输出特征图的通道数量,其大小由网络结构决定;(2.2)、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重

【技术特征摘要】
1.一种基于时空及通道的多注意力机制视频描述方法,其特征在于,包括以下步骤:(1)、从视频库中随机提取M部视频,再将M部视频同时输入至神经网络CNN;(2)、训练基于注意力机制的神经网络LSTM设置最大训练次数为H,每轮训练中的最大迭代次数为T;初始时刻单词的词向量为w0,h0初始化为0向量;(2.1)、利用神经网络CNN提取第I部视频的视频特征fCNN(I);fCNN(I)=VI其中,VI={v1,v2,…,vN},N表示第I部视频的总帧数,vi表示第i帧的视频特征,vi∈RK*K*C,C为CNN网络输出特征图的通道数量,其大小由网络结构决定;(2.2)、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重在当前时刻t,对第i帧视频特征vi进行空间转换,得到vi={ri1,ri2,…rij,…,rik},rij表示第i帧视频的j个区域特征,j=1,2,…,k;再利用rij计算空域注意力权重其中,Watt-s,Uatt-t,batt-s为LSTM待训参数;(2.3)、计算第I部视频在当前时刻t时的通道注意力权重β;将第I部视频的视频特征VI变换为UI,UI={u1,u2,…,uC},再对UI进行平均池化,得到当前时刻t时第I部视频的通道特征向量其中,ζC是uC的平均值,表示的是该通道特征值;则当前时刻t时的通道注意力权重βt为:βt=softmax(W'bt+b')其中,表示外积,表示对矩阵和向量进行广播上的相加,Watt-c,bc,Whc,W',b'为LSTM待训参数;(2.4)、计算第I部视频在当前时刻t时的时域注意力权重对第I部视频的视频特征VI进行池化,得到VI'={v1',v'2,…,v'N},再计算当前时刻t时的时域注意力权重其中,Watt-t,Uatt-t,batt-t为LSTM待训参数;(2.5)、...

【专利技术属性】
技术研发人员:徐杰李林科田野王菡苑
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1