一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法技术

技术编号：29254299 阅读：34 留言：0更新日期：2021-07-13 17:25

本发明专利技术公开了一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法。方法首先将视频文件分解成帧序列，按照帧的时间顺序依次使用深度神经网络分别提取语义特征和视觉显著性特征；语义特征经过双向LSTM模型处理预测出视频帧被选择为关键帧的初始概率；显著性特征用于区分出图像画面中，能够引起观众注意的区域，将显著性特征输入视觉显著度模型中，衡量视频帧的视觉重要度得分；同时利用视觉显著度模型的视觉重要度得分对双向LSTM模型产生的初始概率进行调制，高效地提升了视频摘要生成结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法
本专利技术属于视频摘要
，尤其涉及一种针对用户的“随手拍”视频，基于视觉显著度调制的双向LSTM模型的无监督视频摘要技术。
技术介绍
视频摘要的目的是通过一个简短的视频来表示一个原始的视频内容，该技术能够方便视频的预览、存储、检索和管理。自从YouTube、Instagram等自媒体平台快速发展以来，普通用户创建并上传了大量的视频数据。然而，传统的基于人工浏览视频，挑选出关键片段的模式需要耗费大量的人力和时间、效率低下，无法高效及时的处理海量视频。自动视频摘要技术能够自动分析原始视频中的内容，并提炼出关键的片段组成时长更短的视频。便于自媒体平台快速的浏览，存储，检索，传播视频信息，对信息的流通具有重要的意义。现有的视频摘要方法主要解决特定类别的视频，如运动视频，监控视频，关注的是在背景不变，或者有额外辅助信息的条件下度量视频帧的关键程度。然而，“随手拍”视频，场景在短时间内频繁变化，大大增加了视频内容的语义信息复杂度，同时干扰信息也更多。因此，传统的方法并不能很好的解决“随手拍”视频的摘要问题。
技术实现思路
针对现有技术存在的不足，本专利技术提供了一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要技术。该方法针对“随手拍”视频，提出将语义信息和视觉信息融合，并以视觉显著度模型调制双向LSTM模型的形式以确定当前图像被选为关键帧的概率。其特征在于：将视频文件分解成帧序列，按照帧的时间顺序依次使用深度神经网络分...

【技术保护点】
1.一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法，其特征在于，基于以下定义，视频文件分解为一段长视频序列

【技术特征摘要】
1.一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法，其特征在于，基于以下定义，视频文件分解为一段长视频序列提取出重要的视频帧序列组成一段短视频构成视频摘要，其中w,h,c是视频帧的长，宽，通道数，t为视频帧序号，yt∈[0,1]表示第t帧是否被选为关键帧，“1”表示为真“0”为假；生成的摘要表示为Xsub＝{xt|t∈E}，E＝{t∈[1,T]|yt＝1}，方法包括：
步骤1、从给定视频中，依次提取视觉显著性特征zt以及语义特征vt，其中，语义特征通过GoogLeNet网络提取；视觉显著性特征通过基于FCN的视频显著目标检测网络提取，zt＝{zt(i,j)∈[0,255]|i∈[0,w],j∈[0,h]}，(i,j)表示显著值zt(i,j)的像素坐标；
步骤2、将视觉显著性特征依次输入到视觉显著度模型中，计算得到每一帧的视觉显著度分数
步骤3、将整个的语义特征输入双向LSTM模型中，计算得到每一帧被选择为关键帧的初始概率
步骤4、基于步骤2、3得到的视觉显著度分数和视频帧被选择为关键帧的初始概率计算每一帧的调制概率βt，其中，βt＝Wp·N(pt)+Wl·lt，Wp和Wl分别代表概率pt和lt相应的权重；
步骤5、基于步骤4得到的调制概率，从长视频序列中选取关键帧组成视频帧序列，从而构成视频摘要。

2.根据权利要求1所述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法，其特征在于，所述步骤1中，提取语义特征的方法如下：
将视频帧序列依次输入到GoogLeNet网络中，依次取得每帧在GoogLeNet网络平均池化层的输出并进行Flatten操作后得到语义特征

3.根据权利要求1所述的一种基于视觉显著度调制的双向LSTM模型的无监督视频摘要方法，其特征在于，所述步骤1中，在基于FCN的视频显著目标检测网络中提取视觉显著性特征的...

【专利技术属性】
技术研发人员：钟睿，黄炎森，肖地洋，王蕊，
申请(专利权)人：华中师范大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人