A video summarization method based on multi-hop attention includes: input video data sets to the Google LeNet feature extractor to extract the depth features of video frames; input the depth features of each frame into the LSTM network in the form of a sequence to get a score; weigh the scores with the corresponding depth features of video frames to get the selective features, and then input them into the length. The LSTM network trains and outputs the optimized video frame depth features. The optimized video frame depth features are input into the convolution decoder to enhance the convolution and get the enhanced video frame depth features. For each decoder layer, a separate multi-hop attention mechanism is introduced. Regular LS is introduced to verify the effect of video summary. The present invention makes full use of the temporal and semantic information of data to realize a compact and comprehensive summary. The method of the invention is simple and feasible, and can be used in the field of multimedia information processing.
【技术实现步骤摘要】
一种基于多跳注意力的视频摘要方法
本专利技术涉及一种视频摘要方法。特别是涉及一种基于多跳注意力的视频摘要方法。
技术介绍
随着多媒体技术的快速发展,大量数据正在淹没互联网平台,平均每分钟就有几百小时的视频上传到YouTube。目前,视频数据已迅速成为最常见的视觉信息来源之一,其数据量令人望而生畏。因此,有效地浏览、管理和检索这些视频更加重要。视频摘要是一种多媒体信息处理技术,它的思想是通过分析原始视频,利用某种摘要框架获得其中有意义、富含重要信息的内容来组成一种紧凑而全面的视频总结,实现高效的浏览体验。自动视频摘要通常可分为两类,分别是抽取式(extractive)和生成式(abstractive)。抽取式摘要是直接在视频中提取帧,筛选出关键帧并抽取来合成新的视频成为摘要。而生成式方法则应用先进的深度学习以及自然语言处理相关的算法,通过编解码器技术,将视频帧输入网络,生成更加凝练简洁的摘要。比起抽取式,生成式更接近人进行摘要的过程。在历史研究中,抽取式的效果通常优于生成式。伴随深度神经网络的兴起和研究,基于神经网络的生成式视频摘要得到了快速发展,并取得了不错的成绩。本专利技术主要是关于基于深度神经网络的生成式多跳注意力视频摘要。目前基于深度学习的视频摘要技术普遍出现,编解码器网络以及注意力机制在现实合成真实数据的生成方面取得了巨大成功,但是在一些视频摘要模型的应用上还有待改进,因此,需要提出一种新颖的摘要框架以生成逼真的摘要数据。
技术实现思路
本专利技术所要解决的技术问题是,提供一种能够充分利用数据的时序和语义信息实现紧凑全面摘要的基于多跳注意力的视频摘要方 ...
【技术保护点】
1.一种基于多跳注意力的视频摘要方法,其特征在于,包括如下步骤:1)向GoogLeNet特征提取器输入视频数据集,提取视频帧深度特征x={xt:t=1,...,n},n是帧的数目;2)每一帧视频帧深度特征xt以序列的形式输入到长短期记忆网络LSTM中,得到一个分数St;3)将分数St与对应的视频帧深度特征xt进行加权得到的选择性特征,再输入到长短期记忆网络LSTM中进行训练,输出优化视频帧深度特征xb;4)将优化视频帧深度特征xb输入卷积解码器进行加强卷积,得到加强卷积的视频帧深度特征
【技术特征摘要】
1.一种基于多跳注意力的视频摘要方法,其特征在于,包括如下步骤:1)向GoogLeNet特征提取器输入视频数据集,提取视频帧深度特征x={xt:t=1,...,n},n是帧的数目;2)每一帧视频帧深度特征xt以序列的形式输入到长短期记忆网络LSTM中,得到一个分数St;3)将分数St与对应的视频帧深度特征xt进行加权得到的选择性特征,再输入到长短期记忆网络LSTM中进行训练,输出优化视频帧深度特征xb;4)将优化视频帧深度特征xb输入卷积解码器进行加强卷积,得到加强卷积的视频帧深度特征其中,xc为卷积层的输出,a和b表示卷积后分成的两部分,σ(·)指代sigmoid函数;5)对步骤4)中的每个解码器层,引入单独的多跳注意力机制,即结合当前解码器层的状态和前一解码器层的状态的目标嵌入来计算注意力权重,结果作为当前解码器层的条件输入,最终解码器输出,得到重建的视频帧深度特征作为视频摘要;6)引入正则LS验证视频摘要的效果:其中n表示是帧的数目,ξ是表示...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。