【技术实现步骤摘要】
本专利技术涉及一种基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,属于计算机视觉。
技术介绍
1、随着多媒体技术的迅速发展,视频数据在社交媒体、监控安防、教育培训、医疗影像、新闻传媒等众多领域中呈现爆炸式增长。用户面临着如何从海量的视频数据中快速获取关键信息的问题。手动观看和筛选长视频不仅耗时耗力,也容易错过重要片段。因此,自动化的视频摘要技术成为近年来计算机视觉领域的重要研究方向,旨在通过算法手段自动提取视频中的重要帧或片段,生成简洁、具有代表性的视频摘要,帮助用户快速理解视频内容。
2、早期的视频摘要方法主要依赖低层视觉特征,例如颜色、纹理、边缘、光流等,通过分析这些特征的分布与变化来挑选关键帧。然而,这类基于手工特征的方法缺乏对高层语义和上下文关系的理解,往往只能捕捉到表层信息,导致生成的摘要缺乏内容完整性和表达力。随着深度学习的兴起,研究者引入了卷积神经网络、循环神经网络、长短期记忆网络等模型来自动学习帧重要性分数,通过端到端训练实现更加精准的摘要生成。这些方法显著提升了模型对高层语义的建模能力,但在处理长视频
...【技术保护点】
1.一种基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述视频特征优化器,包括:
3.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述全局多尺度编码模块,包括:
4.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述局部块对角稀疏注意力模块将自注意力矩阵划分为非重叠的局部块,每个局部块包含预设数量的连续帧;拼接注意力加权特征、帧级独特
...【技术特征摘要】
1.一种基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,包括以下步骤:
2.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述视频特征优化器,包括:
3.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述全局多尺度编码模块,包括:
4.如权利要求1所述的基于全局多尺度编码与局部稀疏注意力的视频摘要生成方法,其特征在于,所述局部块对角稀疏注意力模块将自注意力矩阵划分为非重叠的局部块,每个局部块包含预设数量的连续帧;拼接注意力加权特征、帧级独特性特征及块间多样性特征;通过线性层融合拼接后的特征,输出帧局部重要性表示,所述帧局部重要性表示flocal根据以下公式计算:
5.如权利要求4...
【专利技术属性】
技术研发人员:张云佐,肖遥舸,赵旭静,赵辉,封筠,张志国,
申请(专利权)人:石家庄铁道大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。