一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法技术

技术编号:29254299 阅读:34 留言:0更新日期:2021-07-13 17:25
本发明专利技术公开了一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法。方法首先将视频文件分解成帧序列,按照帧的时间顺序依次使用深度神经网络分别提取语义特征和视觉显著性特征;语义特征经过双向LSTM模型处理预测出视频帧被选择为关键帧的初始概率;显著性特征用于区分出图像画面中,能够引起观众注意的区域,将显著性特征输入视觉显著度模型中,衡量视频帧的视觉重要度得分;同时利用视觉显著度模型的视觉重要度得分对双向LSTM模型产生的初始概率进行调制,高效地提升了视频摘要生成结果。

【技术实现步骤摘要】
一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法
本专利技术属于视频摘要
,尤其涉及一种针对用户的“随手拍”视频,基于视觉显著度调制的双向LSTM模型的无监督视频摘要技术。
技术介绍
视频摘要的目的是通过一个简短的视频来表示一个原始的视频内容,该技术能够方便视频的预览、存储、检索和管理。自从YouTube、Instagram等自媒体平台快速发展以来,普通用户创建并上传了大量的视频数据。然而,传统的基于人工浏览视频,挑选出关键片段的模式需要耗费大量的人力和时间、效率低下,无法高效及时的处理海量视频。自动视频摘要技术能够自动分析原始视频中的内容,并提炼出关键的片段组成时长更短的视频。便于自媒体平台快速的浏览,存储,检索,传播视频信息,对信息的流通具有重要的意义。现有的视频摘要方法主要解决特定类别的视频,如运动视频,监控视频,关注的是在背景不变,或者有额外辅助信息的条件下度量视频帧的关键程度。然而,“随手拍”视频,场景在短时间内频繁变化,大大增加了视频内容的语义信息复杂度,同时干扰信息也更多。因此,传统的方法并不能很好的解决“随手拍”视频的摘要问题。
技术实现思路
针对现有技术存在的不足,本专利技术提供了一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要技术。该方法针对“随手拍”视频,提出将语义信息和视觉信息融合,并以视觉显著度模型调制双向LSTM模型的形式以确定当前图像被选为关键帧的概率。其特征在于:将视频文件分解成帧序列,按照帧的时间顺序依次使用深度神经网络分别提取语义特征和视觉显著性特征;语义特征经过双向LSTM模型处理预测出视频帧被选择为关键帧的初始概率;显著性特征用于区分出图像画面中,能够引起观众注意的区域,将显著性特征输入本专利技术最新提出的视觉显著度模型中,衡量视频帧的视觉重要度得分;同时利用视觉显著度模型的视觉重要度得分对双向LSTM模型产生的初始概率进行调制,高效地提升了视频摘要生成结果;本专利技术系统框架图见附图1。在两个标准“随手拍”视频摘要数据集上的测试结果证明视觉显著度调制的双向LSTM模型的有效性,见表1。其流程如附图2所示,具体实现如下:基于以下定义,视频文件分解为一段长视频序列提取出重要的视频帧序列组成一段短视频构成视频摘要,其中w,h,c是视频帧的长,宽,通道数,t为视频帧序号,yt∈[0,1]表示第t帧是否被选为关键帧,“1”表示为真“0”为假;生成的摘要表示为Xsub={xt|t∈E},E={t∈[1,T]|yt=1},方法包括:步骤1、从给定视频中,依次提取视觉显著性特征zt以及语义特征vt,其中,语义特征通过GoogLeNet网络提取;视觉显著性特征通过基于FCN的视频显著目标检测网络提取,zt={zt(i,j)∈[0,255]|i∈[0,w],j∈[0,h]},(i,j)表示显著值zt(i,j)的像素坐标;步骤2、将视觉显著性特征依次输入到视觉显著度模型中,计算得到每一帧的视觉显著度分数步骤3、将整个的语义特征输入双向LSTM模型中,计算得到每一帧被选择为关键帧的初始概率步骤4、基于步骤2、3得到的视觉显著度分数和视频帧被选择为关键帧的初始概率计算每一帧的调制概率βt,其中,βt=Wp·N(pt)+Wl·lt,Wp和Wl分别代表概率pt和lt相应的权重;步骤5、基于步骤4得到的调制概率,从长视频序列中选取关键帧组成视频帧序列,从而构成视频摘要。在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤1中,提取语义特征的方法如下:将视频帧序列依次输入到GoogLeNet网络中,依次取得每帧在GoogLeNet网络平均池化层的输出并进行Flatten操作后得到语义特征在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤1中,在基于FCN的视频显著目标检测网络中提取视觉显著性特征的方法如下:步骤1.1、将单个视频帧xt输入到静态显著性检测网络中,经过静态显著性检测网络的卷积和反卷积操作,输出与输入同大小的静态显著性映射xt′;步骤1.2、在相同通道上按深度连接视频帧xt、xt+1与映射xt′为大小是h×w×7的张量I,将I输入到动态显著性检测网络中输出得到相应的视觉显著性特征zt,相比静态网络,动态网络只有第一层卷积做了相应修改:其中Ws表示相应的卷积核,b是偏置参数;步骤1.3、迭代步骤1.1,1.2直到视频序列末尾,得到视觉显著性特征在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤2中,对于每一帧图像,将像素按zt(i,j)大小分为25个显著水平显著水平大于预设阈值的区域判定为能够吸引观众注意力的核心显著域,计算视觉显著度分数为lt=N(λt),其中表示显著水平为的像素总数,N(·)=exp(·)/∑exp(·)为归一化操作。在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤3中,将整个的语义特征作为双向LSTM网络的输入,输出隐藏状态其中ht是双向LSTM网络的一个输出,每个ht都是前向隐藏状态和后向隐藏状态的连结,它封装了前后向视频帧的语义信息,再将作为全连接层FC(·)的输入,全连接层的输出再经过sigmoid函数σ(·)输出每一帧的预测概率pt,计算公式为pt=σ(FC(ht))。在上述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,所述步骤5基于步骤4得到的调制概率,计算第t帧是否被选为关键帧,计算公式为yt=Bernounil(βt),yt∈[0,1],从长视频序列中选取yt=1的关键帧依次组成视频帧序列,从而构成视频摘要。与现有视频摘要技术与系统相比,本专利技术具有以下优点和有益效果:1、与现有技术相比,本专利技术解决了一个新问题,即用户“随手拍”视频下的视频摘要问题。2、与现有技术相比,本专利技术提出了一种全新的基于视觉显著度调制的双向LSTM模型的无监督视频摘要技术。3、与现有技术相比,本专利技术利用视频帧的视觉信息和语义信息,计算视频帧的视觉显著性和语义特征重要性及其相关性来展开“随手拍”视频下的视频摘要工作。附图说明图1是本专利技术的系统框架图。图2是本专利技术的视频摘要流程图。图3是本专利技术使用的基于FCN的视频显著目标检测网络的结构图。图4是本专利技术的GoogLeNet架构。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术提供了一种针对手持设备拍摄的视频,自动生成视频摘要的技术,属于视频摘要
该方法针对“随手拍”视频,提出将语义信息和视觉信息融合,并以视觉显著度模型调制双向长短期记忆模型双向LSTM的形式以确定当前图像被选为关键帧的概率。首先,将视频文件按照帧的时间顺序依次使用深度识别网络分别提取语义特征序本文档来自技高网
...

【技术保护点】
1.一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,其特征在于,基于以下定义,视频文件分解为一段长视频序列

【技术特征摘要】
1.一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,其特征在于,基于以下定义,视频文件分解为一段长视频序列提取出重要的视频帧序列组成一段短视频构成视频摘要,其中w,h,c是视频帧的长,宽,通道数,t为视频帧序号,yt∈[0,1]表示第t帧是否被选为关键帧,“1”表示为真“0”为假;生成的摘要表示为Xsub={xt|t∈E},E={t∈[1,T]|yt=1},方法包括:
步骤1、从给定视频中,依次提取视觉显著性特征zt以及语义特征vt,其中,语义特征通过GoogLeNet网络提取;视觉显著性特征通过基于FCN的视频显著目标检测网络提取,zt={zt(i,j)∈[0,255]|i∈[0,w],j∈[0,h]},(i,j)表示显著值zt(i,j)的像素坐标;
步骤2、将视觉显著性特征依次输入到视觉显著度模型中,计算得到每一帧的视觉显著度分数
步骤3、将整个的语义特征输入双向LSTM模型中,计算得到每一帧被选择为关键帧的初始概率
步骤4、基于步骤2、3得到的视觉显著度分数和视频帧被选择为关键帧的初始概率计算每一帧的调制概率βt,其中,βt=Wp·N(pt)+Wl·lt,Wp和Wl分别代表概率pt和lt相应的权重;
步骤5、基于步骤4得到的调制概率,从长视频序列中选取关键帧组成视频帧序列,从而构成视频摘要。


2.根据权利要求1所述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,其特征在于,所述步骤1中,提取语义特征的方法如下:
将视频帧序列依次输入到GoogLeNet网络中,依次取得每帧在GoogLeNet网络平均池化层的输出并进行Flatten操作后得到语义特征


3.根据权利要求1所述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法,其特征在于,所述步骤1中,在基于FCN的视频显著目标检测网络中提取视觉显著性特征的...

【专利技术属性】
技术研发人员:钟睿黄炎森肖地洋王蕊
申请(专利权)人:华中师范大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1