一种基于空间注意力约束的LSTM模型的视频摘要生成方法技术

技术编号:30498601 阅读:24 留言:0更新日期:2021-10-27 22:30
本发明专利技术公开了一种基于空间注意力约束的LSTM模型的视频摘要生成方法,基于一般现实规律:镜头会聚焦且跟随关键信息,在长短期记忆模型(LSTM)预测视频帧的重要性的基础上,进一步提出空间注意力用于约束长短期记忆模型(LSTM),并根据背包算法挑选关键帧,其将视频文件分解成帧序列,按时序依次使用深度神经网络分别提取视频帧的空间域几何特征和深度特征;空间域几何特征用于确定图像画面中,能够引起观众注意的区域,并预测该区域能够获得的注意力;深度特征作为LSTM模型的输入,经计算形成LSTM模型的隐含信息能够用于预测当前图像与上下文之间的关联性分数;将空间注意力分数对LSTM模型的关联性分数计算进行约束,有效的提升了视频摘要的生成结果。的提升了视频摘要的生成结果。的提升了视频摘要的生成结果。

【技术实现步骤摘要】
一种基于空间注意力约束的LSTM模型的视频摘要生成方法


[0001]本专利技术属于视频摘要
,尤其涉及一种面向自媒体视频,基于空间注意力约束的LSTM模型的视频摘要生成方法。

技术介绍

[0002]短视频的兴起,促使互联网用户对视频时长的忍耐度降低,在观看大段的视频时,用户希望能够在短时间内迅速了解到视频主题是什么、视频精华信息是哪些。数据表明,多数用户能接受的视频时长在五分钟以内,高达70.5%的用户希望娱乐短视频限制在一分钟以内。互联网上海量的视频给想要了解视频内容的用户带来了极大的不便。一般情况下,用户需要花费几乎和视频等长的时间来观看视频,这样在有效时间内,用户通过观看视频的方式只能了解到很少一部分的视频内容,也不符合当前用户对短视频的追捧。因此,迫切需要一种方法来帮助人们在短时间内快速了解这些海量视频的主要内容。
[0003]视频摘要的目的是通过一个简短的视频来表示一个原始的视频内容,该技术能够自动分析原始视频中的内容,并提炼出关键的片段组成时长更短的视频。便于自媒体平台快速的检索,浏览,存储,传播视频信息,对信息的流通本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于空间注意力约束的LSTM模型的视频摘要生成方法,其特征在于:包括如下方法:

生成视频摘要:在给定的一段长视频序列中,提取出关键帧序列组成一段短视频,其中w,h,c是视频帧的长、宽、通道数,t为视频帧序号,T为视频帧的总数,y
t
∈[0,1]表示第t帧是否被选为关键帧,“1”表示为真,“0”为假,生成的视频摘要表示为X
sub
={x
t
|t∈E},E={t∈[1,T]|y
t
=1};

由空间几何特征z
t
、深度特征v
t
两种信息对视频摘要进行描述;具体实现包括如下步骤;步骤1,给定视频帧图像的空间几何特征特征表达和深度特征表达分别为步骤2,空间注意力约束模型:空间几何特征是空间注意力约束模型的输入,该特征是像素块灰度值的集合z
t
={o(i,j):i∈[1,w],j∈[1,h]},通过灰度值的大小反映一张图像显著区域和非显著区域;如果像素块的灰度值大于预设的阈值则区域标定为显著域,否则是非显著域;因此,一张图像的显著域面积大小记作则该图像的空间注意力分数记作l
t
,为当前图像的显著域在所有视频序列显著域面积和的占比步骤3,LSTM模型:整个的深度特征作为LSTM模型的输入,LSTM模型处理后隐层状态为隐含状态封装了前向帧信息和当前信息的语义信息,最后连接多层感知网络,输出每一帧与上下文关联性分数值m
t
,计算公式为m
t
=p(p
t
|p1,p2,...,p
t
‑1,V),其中LSTM模型为每一帧图像预测的概率值p(
·
)表示多层感知网络计算视频图像的上下文关联性分数值函数;步骤4,空间注意力约束下的重要性分数:空间注意力约束条件下的重要性分数表示为β
t
=m
t

·
l
t
,其中λ为空间注意力分数的影响因子;步骤5,关键帧序列的选择,“每帧是否被选为关键帧”这一事件符合背...

【专利技术属性】
技术研发人员:江游胡瑞敏王晓晨刘洋
申请(专利权)人:深圳市新一代信息技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1