当前位置: 首页 > 专利查询>天津大学专利>正文

利用视觉注意力机制的有监督视频摘要提取方法技术

技术编号:17944778 阅读:80 留言:0更新日期:2018-05-15 23:46
本发明专利技术涉及有监督的视频摘要提取技术,为使得摘要的自动生成方式类似于人选取摘要的决策过程,摘要的结果更接近人类的语义理解。本发明专利技术采用的技术方案是,利用视觉注意力机制的有监督视频摘要提取方法,步骤如下:1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。本发明专利技术主要应用于视频摘要场合。

Supervised video abstraction method based on visual attention mechanism

The present invention relates to a supervised video summary extraction technique, in order to make the automatic generation of the abstract similar to the decision process of the human abstract, and the result of the summary is closer to the human semantic understanding. The technical scheme adopted in the present invention is a supervised video abstract extraction method using visual attention mechanism. The following steps are as follows: 1) after preprocessing the original video, the video is detected by shot detection, and several video shots are segmented into candidate shots extracted from the following summary; and 2) the visual features of each video frame are extracted. As the feature of video frame sequence, both encoder and decoder use LSTM model to process video frame sequence, introduce visual attention mechanism in decoder part, fuse the history decoding sequence as the input part of current decoding. 3) use the decoded output information and combine dynamic programming method to get key shots and closes. Key frames to generate video summaries. The invention is mainly used in video summarization.

【技术实现步骤摘要】
利用视觉注意力机制的有监督视频摘要提取方法
本专利技术涉及有监督的视频摘要提取技术,具体讲,涉及利用视觉注意力机制的有监督视频摘要提取方法。
技术介绍
视频摘要是指利用计算机技术分析视频结构、理解视频内容,并从原始的多媒体数据中选取具有代表性的、有意义的部分,将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。依据摘要的最终呈现形式,视频摘要通常分为两种形式:基于关键帧的静态视频摘要和基于关键镜头的动态视频摘要。一直以来视频摘要提取是基于无监督学习,如图论、曲线分解、聚类等方法。近几年运用有监督的学习方法提取视频摘要已成为一种趋势,它通过主动学习人标注的视频摘要,使训练出的模型尽可能地与人的决策模式保持一致,提取的视频摘要更符合人类语义的理解,这是无监督学习很难达到的。目前有监督的学习方法主要有线性回归模型、二元SVM(支持向量机)分类器、seqDPP(序列行列式点阵列)等。视频摘要解决的问题是从原始视频帧序列中提取关键帧序列或者关键镜头序列,其本质就是序列到序列(Sequence-to-Sequence,Seq2Seq)的预测问题。研究序列问题已有比较成熟的模型,如循环神经网络(RecurrentNeuralNetwork,RNN)、长短时记忆模型(RNNwithLong-shortTermMemory,LSTM)。RNN系列模型在处理序列数据上有着极大的优势,能够深层次地挖掘对解决任务有用的序列信息。而基于视觉注意力机制的编-解码(Encoder-Decoder)框架是近年来解决此类任务的经典方案,在图像描述、视频描述、文本摘要、机器翻译等任务中有突出的表现。编码过程将输入序列压缩成固定长度的上下文向量,然后再将其解码成符合任务需求的输出序列。而在解码过程中引入了视觉注意力机制,每一时间节点的解码都受到历史解码序列的影响,并且不同时刻解码的输出向量影响程度不同,即对历史解码序列中每个位置的向量分配不同的注意力,指导网络更加准确地学习序列间的依赖性关系。注意力机制可分为软注意力机制和硬注意力机制,软注意力机制在每个位置都分配注意力权重,只是权重大小不同,可以用反向传播训练;而硬注意力机制在每个位置的注意力具有随机性,可以通过增强学习方法进行训练。
技术实现思路
为克服现有技术的不足,本专利技术旨在提出一种基于视觉注意力机制的有监督视频摘要提取方法,使得摘要的自动生成方式类似于人选取摘要的决策过程,摘要的结果更接近人类的语义理解。本专利技术采用的技术方案是,利用视觉注意力机制的有监督视频摘要提取方法,步骤如下:1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。编码器由一层LSTM网络构成,输入序列是视频特征序列x=(x1,x2,…,xT),输出编码表征序列h=(h1,h2,…,hT),将其作为解码器的输入,序列中每个向量为编码器在每个时间节点的隐藏状态,其计算公式如下:ht=f(ht-1,xt),(1)其中ht,ht-1,xt分别为LSTM网络t时刻的隐藏状态、t-1时刻的隐藏层态、t时刻输入的特征向量的特征向量。解码器也由一层LSTM网络构成,定义其输出的条件概率:p(yi|{y1,...,yi-1},x)=g(ci,si,hi),(2)si,hi,yi分别为解码器i时刻的隐藏状态、解码器的输入、解码器的输出,其中,hi对应编码器的ht,即i=t,i,t取值范围一致,都为1到T,si是LSTM网络在i时刻的隐藏状态,其公式如下:si=f(ci,si-1,hi)(3)其中ci是由解码器的1,2,...,i-1时刻输出序列加权融合而成的上下文向量,即由{y1,...,yi-1}加权和得到,ci包含了之前全部时刻的历史输出信息,但是对之前每一时刻输出的关注程度不同,视觉注意力机制指导网络去学习不同时刻的注意力权值,上下文向量ci计算公式如下:其中yj为解码器在j时刻的输出,j∈{1,2,...,i-1},αij为对应i时刻yj的注意力权值,它由下式计算:eij=a(si-1,yj),生成eij的函数是一个多层感知器,该网络的输入由解码器i-1时刻的隐藏状态si-1、j时刻输出yj构成,eij代表j时刻解码器的输出对i时刻解码的影响程度。具体的解码过程是:得到编码序列h=(h1,h2,…,hT)后,与上下文向量ci,上一时刻解码器的隐藏状态si-1一同构成解码器i时刻的输入,其中ci由公式(4)(5)计算得到,首先利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后由{y1,...,yi-1}和αij计算加权和得到ci,后续时刻如此往复,在最后一个时刻得到解码器的输出序列y={y1,...,yT}。长短时记忆模型LSTM网络是RNN的变种模型,在RNN的基础上,增加长短时记忆单元,LSTM的核是记忆单元ct,受到输入门、遗忘门、输出门三种非线性门的调制,输入门it控制当前时刻的输入信息,遗忘门ft控制着对历史记忆信息的遗忘程度,而输出门ot决定了记忆单元对隐藏状态的影响程度,三个门和记忆单元协同合作,使LSTM具备学习复杂长距离依赖性关系的能力;xt,ht代表t时刻LSTM网络的输入以及隐藏状态,ht-1,ct-1分别代表t-1时刻的隐藏状态以及记忆单元,Wi,Wf,Wo,Wc分别表示输入和隐藏状态到输入门、遗忘门、输出门、记忆单元的映射矩阵,在t时刻网络的前向传播中,首先由xt,ht-1计算it,ft,Ot,然后由ct-1,it,ft计算得到记忆单元ct,最后通过Ot,ct计算t时刻的隐藏状态ht,后续每个时刻依次按公式(6)更新以上参数。训练阶段具体步骤如下:1)对视频预处理后,用预训练的卷积神经网络(ConvolutionalNeuralNetwork,CNN)提取第i帧视频帧的特征xi,构成视频特征序列x=(x1,x2,…,xT),T为序列长度,d为特征的维度;2)将提取的视频特征x输入到编码器LSTM网络中,经公式(6)得到编码器的隐藏状态h=(h1,h2,…,hT),具体计算过程是:在t时刻网络的前向传播中,首先由xt,ht-1计算it,ft,ot,然后由ct-1,it,ft计算得到记忆单元ct,最后通过ot,ct计算t时刻的隐藏状态ht,网络循环计算T次,最终得到h,h将作为解码器的输入,参与解码器LSTM网络的运算,其中ht对应解码器t时刻的输入;3)解码器i时刻的输入由ci,hi对应编码器的ht,si-1构成,其中ci具体的计算过程是:首先根据公式(5)利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后依据公式(4)由{y1,...,yi-1}和αij计算加权和得到ci。将ci,hi,si-1作为解码器i时刻的输入,根据公式(2)(3)计算出yi,在每个时间节点重复上述计算过程,直至T时刻得到对应输入视频序列的本文档来自技高网
...
利用视觉注意力机制的有监督视频摘要提取方法

【技术保护点】
一种利用视觉注意力机制的有监督视频摘要提取方法,其特征是,步骤如下:1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。

【技术特征摘要】
1.一种利用视觉注意力机制的有监督视频摘要提取方法,其特征是,步骤如下:1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。2.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,编码器由一层LSTM网络构成,输入序列是视频特征序列x=(x1,x2,…,xT),输出编码表征序列h=(h1,h2,…,hT),将其作为解码器的输入,序列中每个向量为编码器在每个时间节点的隐藏状态,其计算公式如下:ht=f(ht-1,xt),(1)其中ht,ht-1,xt分别为LSTM网络t时刻的隐藏状态、t-1时刻的隐藏层态、t时刻输入的特征向量的特征向量。3.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,解码器也由一层LSTM网络构成,定义其输出的条件概率:p(yi|{y1,...,yi-1},x)=g(ci,si,hi),(2)si,hi,yi分别为解码器i时刻的隐藏状态、解码器的输入、解码器的输出,其中,hi对应编码器的ht,即i=t,i,t取值范围一致,都为1到T,si是LSTM网络在i时刻的隐藏状态,其公式如下:si=f(ci,si-1,hi)(3)其中ci是由解码器的1,2,...,i-1时刻输出序列加权融合而成的上下文向量,即由{y1,...,yi-1}加权和得到,ci包含了之前全部时刻的历史输出信息,但是对之前每一时刻输出的关注程度不同,视觉注意力机制指导网络去学习不同时刻的注意力权值,上下文向量ci计算公式如下:其中yj为解码器在j时刻的输出,j∈{1,2,...,i-1},αij为对应i时刻yj的注意力权值,它由下式计算:eij=a(si-1,yj),(5)生成eij的函数是一个多层感知器,该网络的输入由解码器i-1时刻的隐藏状态si-1、j时刻输出yj构成,eij代表j时刻解码器的输出对i时刻解码的影响程度。4.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,具体的解码过程是:得到编码序列h=(h1,h2,…,hT)后,与上下文向量ci,上一时刻解码器的隐藏状态si-1一同构成解码器i时刻的输入,其中ci由公式(4)(5)计算得到,首先利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后由{y1,...,yi-1}和αij计算加权和得到ci,后续时刻如此往复,在最后一个时刻得到解码器的输出序列y={y1,...,yT}。5.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,长短时记忆模型LSTM网络是RNN的变种模型,在RNN的基础上,增加长...

【专利技术属性】
技术研发人员:冀中江俊杰
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1