一种基于局部-全局注意力的全Transformer视频摘要方法技术

技术编号:43804585 阅读:30 留言:0更新日期:2024-12-27 13:22
本发明专利技术涉及一种基于局部‑全局注意力的全Transformer视频摘要方法,该方法使用全Transformer采用编码器‑解码器结构,采用了有监督的方式进行视频摘要,并将其视为序列到序列的学习问题,直接将全Transformer应用于视频摘要任务,将原始Transformer中的全注意力机制替换为局部与全局稀疏注意力的组合,这使得模型能够在减少计算成本的同时捕捉长距离依赖关系。本发明专利技术中的编码器和解码器堆叠方式与原始Transformer相同,而局部‑全局稀疏注意力仅在编码器端中使用。在两个公开的多媒体基准数据集TVSum和SumMe上的实验表明,该方法能够大幅度超越其他视频摘要方法。

【技术实现步骤摘要】

本专利技术涉及视频摘要生成,特别涉及一种基于局部-全局注意力的全transformer视频摘要方法。


技术介绍

1、随着各种视频捕捉、观看和存储设备的普及,以及视频分享平台(如youtube)和社交媒体网络(如facebook)的广泛使用,视频数据的数量正以空前的速度增长。这使得高效浏览和寻找相关内容变得极具挑战性。为了解决这一棘手的问题,自动化和高效的视频摘要技术变得越来越必要。视频摘要的本质是通过选择最具信息量的部分来压缩视频,以创建一个能代表原始内容的摘要。创建的摘要可以是静态的视频故事板,由一组具有代表性的关键帧组成,也可以是由关键镜头构成的动态视频预览。在本专利技术的工作中,我们专注于基于关键镜头创建摘要,主要有三个原因。首先,观众更倾向于观看动态视频剪辑而非静态故事板。其次,关键镜头包含多样的信息,并能够高度代表原始视频。最后,实际中,视频通常被分割成连续且不重叠的镜头,这些镜头保持了内在的视觉-时间一致性。这些优势确保所选片段能有效反映视频的整体主题和故事情节,即使其占整个内容的比例较小,也能带来舒适且有趣的用户体验。此外,考虑到一般视频摘要本文档来自技高网...

【技术保护点】

1.一种基于局部-全局注意力的全Transformer视频摘要方法,其特征在于:包括如下步骤:

2.如权利要求1所述的一种基于局部-全局注意力的全Transformer视频摘要方法,其特征在于:所述S2中的编码器为:

3.如权利要求2所述的一种基于局部-全局注意力的全Transformer视频摘要方法,其特征在于:所述S2中解码器表示为:

4.如权利要求3所述的一种基于局部-全局注意力的全Transformer视频摘要方法,其特征在于:所述S2中,局部-全局稀疏多头自注意力机制LGS-MHSA为:

5.如权利要求4所述的一种基于局部-全局注...

【技术特征摘要】

1.一种基于局部-全局注意力的全transformer视频摘要方法,其特征在于:包括如下步骤:

2.如权利要求1所述的一种基于局部-全局注意力的全transformer视频摘要方法,其特征在于:所述s2中的编码器为:

3.如权利要求2所述的一种基于局部-全局注意力的全transformer视频摘要方法,其特征在于:所述s2中解...

【专利技术属性】
技术研发人员:兰利彬蒋璐刘小娟崔贯勋李洪兴李颜心夏遵辉蔡鹏洲
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1