基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法技术

技术编号:45804911 阅读:25 留言:0更新日期:2025-07-11 20:20
本发明专利技术公开了一种基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,属于计算机视觉技术领域。所述方法包括:读取输入视频,提取输入视频的帧级特征向量;构造视频摘要生成模型,将帧级特征向量输入视频摘要模型;将全局多尺度编码和局部稀疏注意力模块的输出进行自适应融合,生成融合特征;融合特征经回归网络输出帧重要性分数,选出代表性帧,生成视频摘要。本发明专利技术所提视频摘要方法通过结合全局多尺度编码与局部稀疏注意力机制,能够精确识别视频中的关键片段,显著提升视频浏览效率和用户体验。实验在基准数据集SumMe和TVSum上进行,实验结果充分证明了该方法的有效性。

【技术实现步骤摘要】

本专利技术涉及一种基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,属于计算机视觉。


技术介绍

1、随着多媒体技术的迅速发展,视频数据在社交媒体、监控安防、教育培训、医疗影像、新闻传媒等众多领域中呈现爆炸式增长。用户面临着如何从海量的视频数据中快速获取关键信息的问题。手动观看和筛选长视频不仅耗时耗力,也容易错过重要片段。因此,自动化的视频摘要技术成为近年来计算机视觉领域的重要研究方向,旨在通过算法手段自动提取视频中的重要帧或片段,生成简洁、具有代表性的视频摘要,帮助用户快速理解视频内容。

2、早期的视频摘要方法主要依赖低层视觉特征,例如颜色、纹理、边缘、光流等,通过分析这些特征的分布与变化来挑选关键帧。然而,这类基于手工特征的方法缺乏对高层语义和上下文关系的理解,往往只能捕捉到表层信息,导致生成的摘要缺乏内容完整性和表达力。随着深度学习的兴起,研究者引入了卷积神经网络、循环神经网络、长短期记忆网络等模型来自动学习帧重要性分数,通过端到端训练实现更加精准的摘要生成。这些方法显著提升了模型对高层语义的建模能力,但在处理长视频时仍面临诸多挑战。<本文档来自技高网...

【技术保护点】

1.一种基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述视频特征优化器,包括:

3.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述全局多尺度编码模块,包括:

4.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述局部块对角稀疏注意力模块将自注意力矩阵划分为非重叠的局部块,每个局部块包含预设数量的连续帧;拼接注意力加权特征、帧级独特性特征及块间多样性特...

【技术特征摘要】

1.一种基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,包括以下步骤:

2.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述视频特征优化器,包括:

3.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述全局多尺度编码模块,包括:

4.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述局部块对角稀疏注意力模块将自注意力矩阵划分为非重叠的局部块,每个局部块包含预设数量的连续帧;拼接注意力加权特征、帧级独特性特征及块间多样性特征;通过线性层融合拼接后的特征,输出帧局部重要性表示,所述帧局部重要性表示flocal根据以下公式计算:

5.如权利要求4...

【专利技术属性】
技术研发人员:张云佐肖遥舸赵旭静赵辉封筠张志国
申请(专利权)人:石家庄铁道大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1