The present invention relates to a supervised video summary extraction technique, in order to make the automatic generation of the abstract similar to the decision process of the human abstract, and the result of the summary is closer to the human semantic understanding. The technical scheme adopted in the present invention is a supervised video abstract extraction method using visual attention mechanism. The following steps are as follows: 1) after preprocessing the original video, the video is detected by shot detection, and several video shots are segmented into candidate shots extracted from the following summary; and 2) the visual features of each video frame are extracted. As the feature of video frame sequence, both encoder and decoder use LSTM model to process video frame sequence, introduce visual attention mechanism in decoder part, fuse the history decoding sequence as the input part of current decoding. 3) use the decoded output information and combine dynamic programming method to get key shots and closes. Key frames to generate video summaries. The invention is mainly used in video summarization.
【技术实现步骤摘要】
利用视觉注意力机制的有监督视频摘要提取方法
本专利技术涉及有监督的视频摘要提取技术,具体讲,涉及利用视觉注意力机制的有监督视频摘要提取方法。
技术介绍
视频摘要是指利用计算机技术分析视频结构、理解视频内容,并从原始的多媒体数据中选取具有代表性的、有意义的部分,将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略。依据摘要的最终呈现形式,视频摘要通常分为两种形式:基于关键帧的静态视频摘要和基于关键镜头的动态视频摘要。一直以来视频摘要提取是基于无监督学习,如图论、曲线分解、聚类等方法。近几年运用有监督的学习方法提取视频摘要已成为一种趋势,它通过主动学习人标注的视频摘要,使训练出的模型尽可能地与人的决策模式保持一致,提取的视频摘要更符合人类语义的理解,这是无监督学习很难达到的。目前有监督的学习方法主要有线性回归模型、二元SVM(支持向量机)分类器、seqDPP(序列行列式点阵列)等。视频摘要解决的问题是从原始视频帧序列中提取关键帧序列或者关键镜头序列,其本质就是序列到序列(Sequence-to-Sequence,Seq2Seq)的预测问题。研究序列问题已有比较成熟的模型,如循环神经网络(RecurrentNeuralNetwork,RNN)、长短时记忆模型(RNNwithLong-shortTermMemory,LSTM)。RNN系列模型在处理序列数据上有着极大的优势,能够深层次地挖掘对解决任务有用的序列信息。而基于视觉注意力机制的编-解码(Encoder-Decoder)框架是近年来解决此类任务的经典方案,在图像描述、视频描述、文本摘要、机器翻译等任务 ...
【技术保护点】
一种利用视觉注意力机制的有监督视频摘要提取方法,其特征是,步骤如下:1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。
【技术特征摘要】
1.一种利用视觉注意力机制的有监督视频摘要提取方法,其特征是,步骤如下:1)对原始视频作预处理后,对视频进行镜头检测,分割成若干个视频镜头作为后续摘要提取的候选镜头;2)然后提取每一视频帧的视觉特征作为视频帧序列的特征,编码器和解码器都采用LSTM模型处理视频帧序列,并在解码器部分引入视觉注意力机制,融合历史的解码序列作为当前解码的输入部分;3)利用解码的输出信息,并结合动态规划方法,得到关键镜头和关键帧,生成视频摘要。2.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,编码器由一层LSTM网络构成,输入序列是视频特征序列x=(x1,x2,…,xT),输出编码表征序列h=(h1,h2,…,hT),将其作为解码器的输入,序列中每个向量为编码器在每个时间节点的隐藏状态,其计算公式如下:ht=f(ht-1,xt),(1)其中ht,ht-1,xt分别为LSTM网络t时刻的隐藏状态、t-1时刻的隐藏层态、t时刻输入的特征向量的特征向量。3.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,解码器也由一层LSTM网络构成,定义其输出的条件概率:p(yi|{y1,...,yi-1},x)=g(ci,si,hi),(2)si,hi,yi分别为解码器i时刻的隐藏状态、解码器的输入、解码器的输出,其中,hi对应编码器的ht,即i=t,i,t取值范围一致,都为1到T,si是LSTM网络在i时刻的隐藏状态,其公式如下:si=f(ci,si-1,hi)(3)其中ci是由解码器的1,2,...,i-1时刻输出序列加权融合而成的上下文向量,即由{y1,...,yi-1}加权和得到,ci包含了之前全部时刻的历史输出信息,但是对之前每一时刻输出的关注程度不同,视觉注意力机制指导网络去学习不同时刻的注意力权值,上下文向量ci计算公式如下:其中yj为解码器在j时刻的输出,j∈{1,2,...,i-1},αij为对应i时刻yj的注意力权值,它由下式计算:eij=a(si-1,yj),(5)生成eij的函数是一个多层感知器,该网络的输入由解码器i-1时刻的隐藏状态si-1、j时刻输出yj构成,eij代表j时刻解码器的输出对i时刻解码的影响程度。4.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,具体的解码过程是:得到编码序列h=(h1,h2,…,hT)后,与上下文向量ci,上一时刻解码器的隐藏状态si-1一同构成解码器i时刻的输入,其中ci由公式(4)(5)计算得到,首先利用si-1,yj计算对应解码器j时刻输出的权值eij,再对其作归一化处理得到αij,最后由{y1,...,yi-1}和αij计算加权和得到ci,后续时刻如此往复,在最后一个时刻得到解码器的输出序列y={y1,...,yT}。5.如权利要求1所述的利用视觉注意力机制的有监督视频摘要提取方法,其特征是,长短时记忆模型LSTM网络是RNN的变种模型,在RNN的基础上,增加长...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。