一种基于时空及通道的多注意力机制视频描述方法技术

技术编号：19935006 阅读：18 留言：0更新日期：2018-12-29 04:50

本发明专利技术公开了一种基于时空及通道的多注意力机制视频描述方法，通过CNN网络对视频进行视频特征提取，再基于多注意力网络对视频特征和编码上一时刻的输出进行计算，从而得到视频特征在时域、空域及通道上的注意力权重，再将得三组权重再次与视频特征进行计算得到融合的特征，这样我们就能得到更加有效的视频特征，最后将融合的特征行编码输出，得到与视频内容更加一致的描述。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于时空及通道的多注意力机制视频描述方法
本专利技术属于光通信
，更为具体地讲，涉及一种基于时空及通道的多注意力机制视频描述方法。
技术介绍
视频描述是计算机视觉和自然语言处理两个领域的研究，近年来受到了极大的关注。Venugopalan在2014年出了基于“编码-解码”框架的视频描述模型。论文中的编码模型首先对视频单帧利用CNN提取特征，然后分别采取了均值池化和时序编码的两种编码模型。虽然该模型成功的应用在了视频描述中，但视频描述模型仍存在以下一些问题：第一个问题是没有对视频特征进行有效的利用。论文中视频特征只在首次解码时使用，而后续时刻并未利用到视频特征，这导致了当时序增加时视频特征对于单词预测的影响减弱，由此会使模型语句生成能力的降低。对于该问题一种直接的解决方法是每次都将视频特征加入，但视频特征由于是连续多张的图像，如果每时刻仍用均值池化的方式送入解码模型，显然这样仍没有有效的对视频特征进行利用。KelvinXu在图像描述上提出了注意力机制的图像描述模型，通过注意力机制在每次预测单词之前会对每个图像的每个区域进行权重分配，这使得每次预测时使用的特征是不同的，利用该思想，论文提出了基于时域注意力机制的视频描述模型。其模型在每一次进行单词预测时，对所有视频帧的特征分配权重并求和，实验表明，这样能够有效的利用视频的特征信息。第二个问题是视觉内容特征与语句描述的一致性问题。第一个问题虽然使用基于时域注意力的方法提升了视频特征的利用，但是更深一步来说，这种方式仍未充分的对视频特征和语句描述之间的关系进行建模，由此带来的第二问题就是如何保证视觉内容特...

【技术保护点】
1.一种基于时空及通道的多注意力机制视频描述方法，其特征在于，包括以下步骤：(1)、从视频库中随机提取M部视频，再将M部视频同时输入至神经网络CNN；(2)、训练基于注意力机制的神经网络LSTM设置最大训练次数为H，每轮训练中的最大迭代次数为T；初始时刻单词的词向量为w0，h0初始化为0向量；(2.1)、利用神经网络CNN提取第I部视频的视频特征fCNN(I)；fCNN(I)＝VI其中，VI＝{v1,v2,…,vN}，N表示第I部视频的总帧数，vi表示第i帧的视频特征，vi∈RK*K*C，C为CNN网络输出特征图的通道数量，其大小由网络结构决定；(2.2)、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重

【技术特征摘要】
1.一种基于时空及通道的多注意力机制视频描述方法，其特征在于，包括以下步骤：(1)、从视频库中随机提取M部视频，再将M部视频同时输入至神经网络CNN；(2)、训练基于注意力机制的神经网络LSTM设置最大训练次数为H，每轮训练中的最大迭代次数为T；初始时刻单词的词向量为w0，h0初始化为0向量；(2.1)、利用神经网络CNN提取第I部视频的视频特征fCNN(I)；fCNN(I)＝VI其中，VI＝{v1,v2,…,vN}，N表示第I部视频的总帧数，vi表示第i帧的视频特征，vi∈RK*K*C，C为CNN网络输出特征图的通道数量，其大小由网络结构决定；(2.2)、计算第I部视频中每一帧视频在当前时刻t时的空域注意力权重在当前时刻t，对第i帧视频特征vi进行空间转换，得到vi＝{ri1,ri2,…rij,…,rik}，rij表示第i帧视频的j个区域特征，j＝1,2,…,k；再利用rij计算空域注意力权重其中，Watt-s，Uatt-t，batt-s为LSTM待训参数；(2.3)、计算第I部视频在当前时刻t时的通道注意力权重β；将第I部视频的视频特征VI变换为UI，UI＝{u1,u2,…,uC}，再对UI进行平均池化，得到当前时刻t时第I部视频的通道特征向量其中，ζC是uC的平均值，表示的是该通道特征值；则当前时刻t时的通道注意力权重βt为：βt＝softmax(W'bt+b')其中，表示外积，表示对矩阵和向量进行广播上的相加，Watt-c，bc，Whc，W'，b'为LSTM待训参数；(2.4)、计算第I部视频在当前时刻t时的时域注意力权重对第I部视频的视频特征VI进行池化，得到VI'＝{v1',v'2,…,v'N}，再计算当前时刻t时的时域注意力权重其中，Watt-t，Uatt-t，batt-t为LSTM待训参数；(2.5)、...

【专利技术属性】
技术研发人员：徐杰，李林科，田野，王菡苑，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人