一种基于动态注意力机制的多事件视频描述方法技术

技术编号:23604838 阅读:35 留言:0更新日期:2020-03-28 05:53
本发明专利技术公开了一种基于动态注意力机制的多事件视频描述方法,包括如下步骤:将视频序列输入三维卷积神经网络,提取视频的视觉特征;采用基于注意力机制的视频编码层对视觉特征进行编码,并将特征编码输入到事件预测层;事件预测层根据视频编码信息对各个事件进行预测;事件描述层根据事件预测结果获取各事件视觉特征,并动态结合自身的上下文信息产生各事件的文字描述。所述方法克服了现有多事件视频描述方法并行性差,效率低的缺点,同时保证了视频描述生成的准确性,并能够采用端到端的方式进行模型的训练。

A multi event video description method based on dynamic attention mechanism

【技术实现步骤摘要】
一种基于动态注意力机制的多事件视频描述方法
本专利技术涉及一种基于动态注意力机制的多事件视频描述方法,属于计算机视觉中的视频描述领域。
技术介绍
视频标签(VideoTagging)是一种对视频内容进行分析,并形成分类标签的技术,视频标签能有效提取视频的关键信息,被广泛应用于视频存储和检索领域。但是视频标签不能表现出视频更加详细的信息。视频描述(VideoCaptioning)是通过计算机自动生成视频的自然语言描述的过程,通过视频描述不仅能提取到视频中的关键元素,还能通过句子描述体现出这些元素之间的关联,因此视频描述在视频存储检索、人机交互、知识抽取等领域具有重要的应用价值和发展前景。与对图像描述(ImageCaptioning)不同的是,视频包含有大量的,不断变化的时空信息,如何高效获取有用的信息进行准确的视频描述是计算机视觉领域一个重大的挑战。S.Venugopalan等人提出的S2VT(SequencetoSequence-VideotoText)算法是深度学习方法在视频描述领域的首次成功运用。该方法提取视频的2D卷积特征和光流特征,并输入两层栈式LSTM网络来产生视频的描述,奠定了采用编码器-解码器(Encoder-Decoder)架构进行视频描述算法的基础。目前视频描述领域已经有了不少研究成果,但大部分是在S2VT算法的基础上的改进,如采用3DCNN提取视频特征、采用多模态融合的特征、采用改进的GRU网络进行解码等。一段长视频包含的事件可能有多个,传统的视频描述方法生成一句话来描述视频过于粗糙,只能描述到一部分信息,为了解决这以问题,密集视频描述(DenseVideoCaptioning)应运而生。密集视频描述是由Z.Shen等人在《WeaklySupervisedDenseVideoCaptioning》这篇文章中提出的,对一段视频,先提取出不同的区域序列,然后对每个区域序列生成一句描述,这就是现在密集视频描述普遍采用的事件预测(EventProposal)-描述生成(CaptionGeneration)架构的雏形。相比于传统的视频描述算法,该算法提出的区域序列的描述更加精细化,更富有信息量,开辟了一个全新的研究方向。近年来关于密集视频描述的研究主要是有效提取并表示视频中的信息以及提高事件预测的精度。针对第一个问题,注意力机制(如DescribingVideosbyExploitingTemporalStructure)替代最初的平均池化方法来生成视频信息表示,较好地解决了视频时序信息在编码过程中丢失的问题。针对第二个问题,J.Wang等人(BidirectionalAttentiveFusionwithContextGatingforDenseVideoCaptioning)指出大部分的方法在视频编码过程中只提取了视频序列后向的上下文信息,而忽略了前向的上下文信息,从而导致事件预测方法不能区分出高程度重叠的事件。因此,他们提出了一个双向视频编码方法,采用两层LSTM网络分别对视频的前向和后向上下文信息进行编码,并根据融合后的上下文信息进行事件预测,从而提高了事件预测的准确性。但是现有的密集视频描述生成方法仍存在问题,大部分方法在进行视频解码时,只是简单将上下文特征和视觉特征连接得到解码器的输入,因此生成的描述并不准确。同时被广泛采用的LSTM视频编码器存在并行性差的问题。因此需要一种高效的密集视频描述生成方法,能够对视频中的事件进行快速精确定位和描述。
技术实现思路
本专利技术为了解决现有密集视频描述生成算法中存在的并行性差、准确性低的问题,提供一种基于动态注意力机制的多事件视频描述方法,实现对视频中的事件进行准确定位和描述。为了达到上述目的,本专利技术提出的技术方案为:一种基于动态注意力机制的多事件视频描述方法,其特征在于,包括以下步骤:步骤一、采用卷积神经网络提取目标视频序列X的视觉特征V;步骤二、将视频的视觉特征V输入到L层自注意力机制视频编码层,得到视频的编码Fi;步骤三、利用事件预测层根据视频编码Fi产生对事件的预测φi,并选取预测置信度最高的层预测作为最终预测结果φk;步骤四、基于事件预测层的预测结果生成事件j的掩膜采用掩模截取事件j的视觉特征序列:其中⊙表示矩阵元素依次相乘;采用平均池化得到事件j的视觉特征向量Cj:其中n为特征序列的长度;将事件的视觉特征向量和上下文向量H融合得到调整后的最终特征向量假设事件j的描述Sj由Ts个单词组成,即则将编码器生成一个单词w视为一个时间周期,则Sj的生成需要Ts个时间周期,则将事件的视觉特征和上下文特征ht-1映射到同一个特征空间:h′t-1=tanh(Wcht-1),Wv和Wc为视觉特征和上下文特征的映射矩阵,上下文特征ht-1为LSTM单元在上一个时刻的隐藏状态。ht的更新由当前输入单词的特征向量Et,输入视觉特征向量前一个时刻的隐藏状态ht-1共同决定:其中Et=E[wt-1],特别地,E0=E[<BOS>];计算上下文特征的门限值Et为解码器在t时刻的输入词wt-1的嵌入向量;采用门限机制将视觉特征和上下文特征融合:事件j的最终特征表示将事件j的最终特征表示输入LSTM解码器解码,得到事件j的描述Sj。所述步骤二中视频的编码步骤为:将视觉特征V作为第一个编码器层的输入,该层输出为F1=E(V),其余层编码器将前面一层的输出作为输入,编码输出为Fl+1=E(Fl)。每个编码器层均包括一个多头注意力层和一个点式前馈层;所述多头注意力层计算公式为:点式前馈层计算公式为:E(Fl)=LN(FF(Ω(Fl)),Ω(Fl))其中,LN(p,q)=LayerNorm(p+q),表示在残留输出上进行归一化操作,FF(·)表示第一层具有非线性ReLU激活函数的两层前馈神经网络,是该网络的权值矩阵,为偏执因子,Ω(·)的定义使用了自注意力机制,在第t步的编码过程中,ftl被作为注意力层的查询,得到的输出是fil(i=1,2,…,T)的加权和。所述步骤三中事件预测层根据视频编码Fi产生对事件的预测的具体方法如下:步骤3.1、首先将视频编码Fi输入到事件预测层的基础层;步骤3.2、将基础层的输出特征输入到事件预测层的锚层,逐步减少特征的时间维度;步骤3.3、将每个锚层的输出输入到预测层,并一次性生成一组固定的事件预测。所述步骤三中第i层第j个事件的预测的计算方法为:通过下式计算事件的边界和分别代表优化之前的锚的中央位置和宽度,为优化之前锚的中央位置的时序偏移量,为优化之前锚的宽度的时序偏移量,exp(·)为指数函数,和分别代表优化之后的锚的中央位置和宽度;通过下式计算事件的预测置信度sj:和分别表示事件的分类置信度和语言上的本文档来自技高网
...

【技术保护点】
1.一种基于动态注意力机制的多事件视频描述方法,其特征在于,包括以下步骤:/n步骤一、采用卷积神经网络提取目标视频序列X的视觉特征V;/n步骤二、将视频的视觉特征V输入到L层自注意力机制视频编码层,得到视频的编码F

【技术特征摘要】
1.一种基于动态注意力机制的多事件视频描述方法,其特征在于,包括以下步骤:
步骤一、采用卷积神经网络提取目标视频序列X的视觉特征V;
步骤二、将视频的视觉特征V输入到L层自注意力机制视频编码层,得到视频的编码Fi;
步骤三、利用事件预测层根据视频编码Fi产生对事件的预测φi,并选取预测置信度最高的层预测作为最终预测结果φk;
步骤四、基于事件预测层的预测结果生成事件j的掩膜采用掩模截取事件j的视觉特征序列:



其中⊙表示矩阵元素依次相乘;
采用平均池化得到事件j的视觉特征向量Cj:



其中n为特征序列的长度;
将事件的视觉特征向量和上下文向量H融合得到调整后的最终特征向量
假设事件j的描述Sj由Ts个单词组成,即则将编码器生成一个单词w视为一个时间周期,则Sj的生成需要Ts个时间周期,则
将事件的视觉特征和上下文特征ht-1映射到同一个特征空间:h′t-1=tanh(Wcht-1),Wv和Wc为视觉特征和上下文特征的映射矩阵,上下文特征ht-1为LSTM单元在上一个时刻的隐藏状态。ht的更新由当前输入单词的特征向量Et,输入视觉特征向量前一个时刻的隐藏状态ht-1共同决定:其中Et=E[wt-1],特别地,E0=E[<BOS>];
计算上下文特征的门限值Et为解码器在t时刻的输入词wt-1的嵌入向量;
采用门限机制将视觉特征和上下文特征融合:事件j的最终特征表示
将事件j的最终特征表示输入LSTM解码器解码,得到事件j的描述Sj。


2.根据权利要求1所述基于动态注意力机制的多事件视频描述方法,其特征在于:所述步骤二中视频的编码步骤为:
将视觉特征V作为第一个编码器层的输入,该层输出为F1=E(V),其余层编码器将前面一层的输出作为输入,编码输出为Fl+1=E(Fl)。


3.根据权利要求2所述基于动态注意力机制的多事件视频描述方法,其特征在于:每...

【专利技术属性】
技术研发人员:谢洪平刘迪诸雅琴黄涛陈勇杜长青吴威王昊林东阳陈喆
申请(专利权)人:国网江苏省电力工程咨询有限公司金卯新能源集团有限公司东南大学国网江苏省电力有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1