当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于多跳注意力的视频摘要方法技术

技术编号:21200063 阅读:20 留言:0更新日期:2019-05-25 01:18
一种基于多跳注意力的视频摘要方法,包括:向GoogLeNet特征提取器输入视频数据集,提取视频帧深度特征;每一帧视频帧深度特征以序列的形式输入到长短期记忆网络LSTM中,得到一个分数;将分数与对应的视频帧深度特征进行加权得到的选择性特征,再输入到长短期记忆网络LSTM中进行训练,输出优化视频帧深度特征;将优化视频帧深度特征输入卷积解码器进行加强卷积,得到加强卷积的视频帧深度特征;对每个解码器层,引入单独的多跳注意力机制;引入正则LS验证视频摘要的效果。本发明专利技术充分利用数据的时序和语义信息实现紧凑全面的摘要。本发明专利技术的方法简单可行,可以用在多媒体信息处理领域中。

A Video Summarization Method Based on Multi-Hop Attention

A video summarization method based on multi-hop attention includes: input video data sets to the Google LeNet feature extractor to extract the depth features of video frames; input the depth features of each frame into the LSTM network in the form of a sequence to get a score; weigh the scores with the corresponding depth features of video frames to get the selective features, and then input them into the length. The LSTM network trains and outputs the optimized video frame depth features. The optimized video frame depth features are input into the convolution decoder to enhance the convolution and get the enhanced video frame depth features. For each decoder layer, a separate multi-hop attention mechanism is introduced. Regular LS is introduced to verify the effect of video summary. The present invention makes full use of the temporal and semantic information of data to realize a compact and comprehensive summary. The method of the invention is simple and feasible, and can be used in the field of multimedia information processing.

【技术实现步骤摘要】
一种基于多跳注意力的视频摘要方法
本专利技术涉及一种视频摘要方法。特别是涉及一种基于多跳注意力的视频摘要方法。
技术介绍
随着多媒体技术的快速发展,大量数据正在淹没互联网平台,平均每分钟就有几百小时的视频上传到YouTube。目前,视频数据已迅速成为最常见的视觉信息来源之一,其数据量令人望而生畏。因此,有效地浏览、管理和检索这些视频更加重要。视频摘要是一种多媒体信息处理技术,它的思想是通过分析原始视频,利用某种摘要框架获得其中有意义、富含重要信息的内容来组成一种紧凑而全面的视频总结,实现高效的浏览体验。自动视频摘要通常可分为两类,分别是抽取式(extractive)和生成式(abstractive)。抽取式摘要是直接在视频中提取帧,筛选出关键帧并抽取来合成新的视频成为摘要。而生成式方法则应用先进的深度学习以及自然语言处理相关的算法,通过编解码器技术,将视频帧输入网络,生成更加凝练简洁的摘要。比起抽取式,生成式更接近人进行摘要的过程。在历史研究中,抽取式的效果通常优于生成式。伴随深度神经网络的兴起和研究,基于神经网络的生成式视频摘要得到了快速发展,并取得了不错的成绩。本专利技术主要是关于基于深度神经网络的生成式多跳注意力视频摘要。目前基于深度学习的视频摘要技术普遍出现,编解码器网络以及注意力机制在现实合成真实数据的生成方面取得了巨大成功,但是在一些视频摘要模型的应用上还有待改进,因此,需要提出一种新颖的摘要框架以生成逼真的摘要数据。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够充分利用数据的时序和语义信息实现紧凑全面摘要的基于多跳注意力的视频摘要方法。本专利技术所采用的技术方案是:一种基于多跳注意力的视频摘要方法,包括如下步骤:1)向GoogLeNet特征提取器输入视频数据集,提取视频帧深度特征x={xt:t=1,...,n},n是帧的数目;2)每一帧视频帧深度特征xt以序列的形式输入到长短期记忆网络LSTM中,得到一个分数St;3)将分数St与对应的视频帧深度特征xt进行加权得到的选择性特征,再输入到长短期记忆网络LSTM中进行训练,输出优化视频帧深度特征xb;4)将优化视频帧深度特征xb输入卷积解码器进行加强卷积,得到加强卷积的视频帧深度特征其中,xc为卷积层的输出,a和b表示卷积后分成的两部分,σ(·)指代sigmoid函数;5)对步骤4)中的每个解码器层,引入单独的多跳注意力机制,即结合当前解码器层的状态和前一解码器层的状态的目标嵌入来计算注意力权重,结果作为当前解码器层的条件输入,最终解码器输出,得到重建的视频帧深度特征作为视频摘要;6)引入正则LS验证视频摘要的效果:其中n表示是帧的数目,ξ是表示期望在视频摘要中选择的帧的百分比的一个参数,St为分数。步骤1)所述的视频数据是从TVSum或SumMe数据集中获得。步骤3)所述的加权是将分数St与对应的视频帧深度特征xt通过一个乘法器得到筛选的视频帧深度特征xa。步骤4)所述的加强卷积包括:首先每个卷积核被参数化为W∈R2d×kd,B∈R2d,输入X∈Rk×d,即X由k个d维嵌入的元素整合而成,输出最终映射为输入维度的二倍,即输出Y∈R2d;随后选择门控线性单元作为非线性层,将卷积得到的视频帧深度特征分成两部分输入非线性层,用门控控制其中一部分与另一部分进行点乘,公式表示为其中,xc为卷积层的输出,a和b表示卷积后分成的两部分,σ(·)指代sigmoid函数,σ(b)控制a和b输入的相关。本专利技术的一种基于注意力的视频摘要方法,充分利用数据的时序和语义信息实现紧凑全面的摘要。其优势主要体现在:将注意力机制和编解码器一起应用于视频摘要,使用不同的神经网络实现编解码器的功能。利用卷积神经网络CNN能提取出层次性特征,并且能并行高效地进行卷积操作的优势,将CNN应用到摘要生成任务中,卷积模块采用经典的卷积加上非线性变换,同时结合多跳注意力机制,提取出富含语义信息和具有代表性的高质量摘要。本专利技术提出的视频摘要方法简单可行,可以用在多媒体信息处理领域中。附图说明图1是本专利技术一种基于多跳注意力的视频摘要方法的流程图。具体实施方式下面结合实施例和附图对本专利技术的一种基于多跳注意力的视频摘要方法做出详细说明。如图1所示,本专利技术的一种基于多跳注意力的视频摘要方法,包括如下步骤:1)向GoogLeNet特征提取器输入视频数据,提取视频帧深度特征x={xt:t=1,...,n},n是帧的数目;所述的视频数据是从TVSum或SumMe数据集中获得。2)每一帧视频帧深度特征xt以序列的形式输入到长短期记忆网络LSTM中,得到一个分数St;3)将分数St与对应的视频帧深度特征xt进行加权得到的选择性特征,再输入到长短期记忆网络LSTM中进行训练,输出优化视频帧深度特征xb;所述的加权是将分数St与对应的视频帧深度特征xt通过一个乘法器得到筛选的视频帧深度特征xa。采用双向的长短期记忆网络biLSTM,每个训练序列分别进行向前和向后计算,Forward层和Backward层共同连接着输出层,向前和向后计算后的输出的隐藏状态并到一起作为总输出。具体过程为,在Forward层从1时刻到t时刻正向计算一遍,得到并保存每个时刻向前隐含层的输出。在Backward层沿着时刻t到时刻1反向计算一遍,得到并保存每个时刻向后隐含层的输出。最后在每个时刻结合Forward层和Backward层的相应时刻输出的结果得到最终的输出,用数学表达式如下:ht=f(ω1xt+ω2ht-1)ht'=f(ω3xt+ω5h't+1)ot=g(ω4ht+ω6ht')式中,xt表示t时刻的输入,ht和ht'分别表示Forward层和Backward层在t时刻的输出,ω1~ω6表示六组共享权值,ot表示总的输出。4)将优化视频帧深度特征xb输入卷积解码器CNN进行加强卷积,得到加强卷积的视频帧深度特征其中,xc为卷积层的输出,a和b表示卷积后分成的两部分,σ(·)指代sigmoid函数;加强卷积表示为经典卷积加上一个非线性变换的过程。卷积层得到的优化特征输入到非线性变换层。本层类比长短期记忆网络LSTM中的门结构,使整个网络更有力地控制信息的关联和传递,它将卷积后的结果分成两部分,一部分进行sigmoid变换,映射到0到1之间,然后,与另一部分向量进行逐元素的乘法。具体包括:首先每个卷积核被参数化为W∈R2d×kd,B∈R2d,输入X∈Rk×d,即X由k个d维嵌入的元素整合而成,输出最终映射为输入维度的二倍,即输出Y∈R2d;随后选择门控线性单元作为非线性层,将卷积得到的视频帧深度特征分成两部分输入非线性层,用门控控制其中一部分与另一部分进行点乘,公式表示为其中,xc为卷积层的输出,a和b表示卷积后分成的两部分,σ(·)指代sigmoid函数,σ(b)控制a和b输入的相关。5)对步骤4)中的每个解码器层,引入单独的多跳注意力机制,即结合当前解码器层的状态和前一解码器层的状态的目标嵌入来计算注意力权重,结果作为当前解码器层的条件输入,最终解码器输出,得到重建的视频帧深度特征作为视频摘要。卷积解码器CNN采用经典的卷积层框架,同时引入了多跳注意力机制。不同于以往的注意力模型,本专利技术中的多跳注意力机制不仅要求解码器本文档来自技高网...

【技术保护点】
1.一种基于多跳注意力的视频摘要方法,其特征在于,包括如下步骤:1)向GoogLeNet特征提取器输入视频数据集,提取视频帧深度特征x={xt:t=1,...,n},n是帧的数目;2)每一帧视频帧深度特征xt以序列的形式输入到长短期记忆网络LSTM中,得到一个分数St;3)将分数St与对应的视频帧深度特征xt进行加权得到的选择性特征,再输入到长短期记忆网络LSTM中进行训练,输出优化视频帧深度特征xb;4)将优化视频帧深度特征xb输入卷积解码器进行加强卷积,得到加强卷积的视频帧深度特征

【技术特征摘要】
1.一种基于多跳注意力的视频摘要方法,其特征在于,包括如下步骤:1)向GoogLeNet特征提取器输入视频数据集,提取视频帧深度特征x={xt:t=1,...,n},n是帧的数目;2)每一帧视频帧深度特征xt以序列的形式输入到长短期记忆网络LSTM中,得到一个分数St;3)将分数St与对应的视频帧深度特征xt进行加权得到的选择性特征,再输入到长短期记忆网络LSTM中进行训练,输出优化视频帧深度特征xb;4)将优化视频帧深度特征xb输入卷积解码器进行加强卷积,得到加强卷积的视频帧深度特征其中,xc为卷积层的输出,a和b表示卷积后分成的两部分,σ(·)指代sigmoid函数;5)对步骤4)中的每个解码器层,引入单独的多跳注意力机制,即结合当前解码器层的状态和前一解码器层的状态的目标嵌入来计算注意力权重,结果作为当前解码器层的条件输入,最终解码器输出,得到重建的视频帧深度特征作为视频摘要;6)引入正则LS验证视频摘要的效果:其中n表示是帧的数目,ξ是表示...

【专利技术属性】
技术研发人员:冀中赵玉晓
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1