基于查询的无监督深度学习的多视频摘要方法技术

技术编号：21299150 阅读：32 留言：0更新日期：2019-06-12 07:49

本发明专利技术涉及视频摘要处理，为提出一种能够结合视频的视觉信息和与主题相关的先验信息，利用受限玻尔兹曼机思想的多视频摘要方法，本发明专利技术基于查询的无监督深度学习的多视频摘要方法，首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧；然后将融合的视频特征作为可见层H

Query-based unsupervised in-depth learning for multi-video summarization

The present invention relates to video summarization processing. In order to propose a multi-video summarization method which combines video visual information and subject-related prior information, and utilizes the idea of limited Boltzmann machine, the multi-video summarization method based on unsupervised deep learning of query is proposed. First, shot detection and pre-processing of multi-video under the same query event is carried out to obtain candidate key frames. Then the fused video features are used as the visible layer H.

全部详细技术资料下载

【技术实现步骤摘要】
基于查询的无监督深度学习的多视频摘要方法
本专利技术涉及视频摘要处理。特别是涉及对具有冗余性，交叉性等特点的多媒体视频数据，通过无监督深度学习(受限玻尔兹曼机)方法对多视频关键镜头进行分析，再结合网络图像的辅助信息进行摘要获取的基于查询的无监督深度学习的多视频摘要方法。具体讲，涉及查询的无监督深度学习的多视频摘要方法。
技术介绍
随着技术的发展，在线视频的数量正以飞快的速度增长，用户也可以使用自己的移动设备方便地上传个人视频到共享网站。记录同一事件、同一场景的视频可能存在大量的冗余信息，这对用户捕捉重要信息带来了困难。因此对大量的视频集中提取出有意义的部分，使用户快速获取视频信息的重要内容的技术是迫切需求的。视频摘要是通过将一个或多个视频转换为精简视频来满足此要求的技术，引起了越来越多的研究人员的关注。多视频摘要技术旨在针对某个查询主题下的大量视频，提取出和检索主题内容相关的且有意义的部分，并以一定的逻辑形式呈现出来，目的是通过简洁而又涵盖主题内容的概要帮助用户更好地了解视频集的重要信息。视频摘要的方法也可以分为两类：基于关键帧的视频摘要和基于视频剪辑的视频摘要。不管是哪类方法，根本目的都是一样的，就是使用户在最短的时间获取原始视频中最大的信息量。多视频摘要需要满足的基本要求：1)最大信息覆盖率；2)重要性；3)主题相关性。最大信息覆盖率指的是所提取的视频内容能够覆盖同一主题下多个视频的主要内容。重要性指的则是根据某些先验信息提取视频集中重要的关键镜头，从而提取出多个视频中重要的内容。主题相关性指的是要保证获取的视频摘要并能准确的反映查询主题的内容。对于单...

【技术保护点】
1.一种基于查询的无监督深度学习的多视频摘要方法，其特征是，首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧，提取4096维的VGG卷积神经网络特征和256维的颜色特征；然后将融合的4352维的视频特征作为可见层H

【技术特征摘要】
1.一种基于查询的无监督深度学习的多视频摘要方法，其特征是，首先对同一查询事件下的多视频进行镜头检测预处理获取候选关键帧，提取4096维的VGG卷积神经网络特征和256维的颜色特征；然后将融合的4352维的视频特征作为可见层H0输入到深层架构以构造具有隐藏层H1的多层受限玻尔兹曼机RBM，为了整合文档摘要的查询信息，在第一层RBM进行两个不同的过程，包括：基于查询的初始权重设置和查询导向惩罚过程；随后通过低层参数自下而上连接到RBM网络的第二、三层；在基于深层体系结构的概念提取之后，通过更高层的隐藏层H3输出简洁且有意义的多视频摘要。2.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法，其特征是，具体的，提取视频视觉特征，使用VGG卷积神经网络和颜色特征得到镜头检测候选关键帧的4352维融合特征，记为f＝[f1,f2,...fi,...,fv]，fi表示第i帧的特征。3.如权利要求1所述的基于查询的无监督深度学习的多视频摘要方法，其特征是，无监督深度学习的网络采用多层受限玻尔兹曼机，具体表示如下：视频特征f作为可见层H0输入到深层架构以构造具有隐藏层H1的受限玻尔兹曼机RBM，第一层RBM即可见层H0和隐藏层H1之间的能量函数通过公式(1)来定义：E(h0,h1；θ1)＝-((h0)TA1h1+(b1)Th0+(c1)Th1)(1)其中，θ1＝(A1,b1,c1)是可见层H0和隐藏层H1之间的模型参数，A1是H0中的可见单元和H1中隐藏单元之间的对称交互项，b1是H0的偏差，c1是H1的偏差；可见层H0和隐藏层H1之间具有如下联合分布：其中，Z是一个归一化函数，在H0中可见矢量分配给h0的对数似然概率如公式(3)所示：可见层H0的输入状态h0和隐藏层H1的隐藏状态h1的条件概率分布由公式(4)和(5)定义：其中σ(x)＝1/(1+exp(-x))；定义h1(k)为来自链的第k个h1的样本，从k＝0开始，其中h1(0)是RBM的输入观察，而(h1(k),h0(k))fork→∞是马尔可夫链的样本，计算出公式(3)的导数与参数θ1＝(A1,b1,c1...

【专利技术属性】
技术研发人员：冀中，张媛媛，庞彦伟，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人