自监督对抗视频摘要提取方法及装置制造方法及图纸

技术编号:35862714 阅读:34 留言:0更新日期:2022-12-07 10:53
本申请涉及一种自监督对抗视频摘要提取方法、装置、计算机设备和存储介质。方法包括:获取目标视频;提取目标视频的帧特征,基于帧特征将目标视频分割为若干镜头,并在镜头之间嵌入基于目标视频采样得到的上下文潜在序列;基于帧特征的全局依赖和帧间信息交互对帧特征进行特征处理,同时将上下文潜在序列转换为过渡特征,并将帧特征与过渡特征拼接;对拼接之后的帧特征与过渡特征进行鉴别得到视频摘要。本方法首次以自监督的方式解决视频摘要的提取,进一步提升了视频摘要提取的合理性。进一步提升了视频摘要提取的合理性。进一步提升了视频摘要提取的合理性。

【技术实现步骤摘要】
自监督对抗视频摘要提取方法及装置


[0001]本申请涉及视频处理
,特别是涉及一种自监督对抗视频摘要提取方法及装置。

技术介绍

[0002]随着互联网和移动设备的发展,生活中的视频数量呈现出一种爆炸式增长,因此帮助人们在短时间内检索、理解以及管理视频的核心内容变得越来越重要。而视频摘要技术的目的就是将一个长时间的视频在一个相对较短的时间内尽可能的完整表现出来,并且能够捕捉原视频中有意义、且符合故事脉络的视频片段。在目前摘要方法中有静态视频摘要和动态视频摘要,静态视频摘要以帧为单位,挑选出关键帧然后进行拼接会出现一种类似电影快放的感觉。而动态视频以一个完整场景的镜头为单位,可以提供一种比较友好的浏览方式。
[0003]随着深度学习的普及,现有技术中存在以下几种方法进行动态视频摘要的处理,在有监督场景下,将视频帧的挑选作为一个二分类的任务,利用人工注释的真实数据集将视频帧进行分类,其主要的方法有基于传统的循环神经网络和注意力机制。但是这些方法的主要缺点在于需要大量的真实数据集作为参考,其数据集往往难以收集,限制了此类方法的发展。其次是在弱监督场景下,使用能够方便获得标签数据作为先验信息对模型进行训练,缺点在于由于先验信息的大量使用有可能导致模型出现偏置问题。最后无监督方法假定用户应该能从摘要视频中尽可能的推测出真实视频的场景和内容,使用传统的生成对抗网络(GAN,Generative Adversarial Networks),将生成器生成的摘要视频和原视频进行鉴别以生成质量更高的摘要。这类方法在于使用重要性分数与目标视频的特征乘积作为摘要特征是否是合理和客观的仍然是值得商榷的。
[0004]针对相关技术中有监督方法存在标注数据集难以收集、弱监督存在模型偏置、无监督方法中将重要性分数与目标视频的特征乘积作为摘要特征存在信息泄露的问题,目前还没有提出有效的解决方案。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够解决视频摘要场景中存在的数据集收集难、信息泄露的自监督对抗视频摘要提取方法、装置、计算机设备及计算机可读存储介质。
[0006]第一方面,本申请提供了一种自监督对抗视频摘要提取方法,方法包括:
[0007]获取目标视频;
[0008]提取目标视频的帧特征,基于帧特征将目标视频分割为若干镜头,并在镜头之间嵌入基于目标视频采样得到的上下文潜在序列;
[0009]基于帧特征的全局依赖和帧间信息交互对帧特征进行特征处理,同时将上下文潜在序列转换为过渡特征,并将帧特征与过渡特征拼接;
[0010]对拼接之后的帧特征与过渡特征进行鉴别得到视频摘要。
[0011]在其中一个实施例中,提取目标视频的帧特征,基于帧特征将目标视频分割为若干镜头包括:
[0012]通过对目标视频进行降采样得到降采样视频,并对降采样视频进行特征提取,得到帧特征;
[0013]基于帧特征通过核时序分割算法提取一系列目标视频的转变点,并根据转变点分割目标视频得到各个镜头。
[0014]在其中一个实施例中,在镜头之间嵌入基于目标视频采样得到的上下文潜在序列包括:
[0015]基于目标视频的帧数和镜头数按照对应预设选择比平均分配形成上下文潜在序列,并嵌入于各个镜头之间。
[0016]在其中一个实施例中,在基于帧特征的全局依赖和帧间信息交互对帧特征进行特征处理之前,还包括:
[0017]将同一镜头的帧特征求和,得到镜头级特征;
[0018]对镜头级特征进行特征提取,获取同一镜头的共同特征;
[0019]将共同特征与同一镜头的帧特征相加,得到新的帧特征。
[0020]在其中一个实施例中,基于帧级别至镜头级别的第一映射矩阵将同一镜头的帧特征求和,得到镜头级特征,基于Transformer模型对镜头级特征进行特征提取,获取同一镜头的共同特征,基于镜头级别至帧级别的第二映射矩阵将共同特征与同一镜头的帧特征相加,得到新的帧特征。
[0021]在其中一个实施例中,基于帧特征的全局依赖和帧间信息交互对帧特征进行特征处理包括:
[0022]通过混合多头注意力基于帧特征的全局依赖和帧间信息交互对帧特征进行特征处理,其中,混合多头注意力为结合掩码矩阵的自注意力矩阵,混合多头注意力包括用于全局依赖提取的第一注意力头组、用于约束镜头内语义一致性的第二注意力头组,第二注意力头组基于掩码矩阵进行帧间信息交互,以约束镜头内语义一致性。
[0023]在其中一个实施例中,对拼接之后的帧特征与过渡特征进行鉴别得到视频摘要包括:
[0024]对拼接之后的帧特征与过渡特征采用不同核大小的一维卷积分别进行特征提取;
[0025]将卷积之后的特征沿通道维度链接并进行鉴别,得到视频摘要。
[0026]第二方面,本申请提供了一种自监督对抗视频摘要提取装置,装置包括:特征提取网络与一致性自监督对抗网络,一致性自监督对抗网络包括生成器和鉴别器;
[0027]特征提取网络,用于获取目标视频,以及提取目标视频的帧特征,基于帧特征将目标视频分割为若干镜头,并在镜头之间嵌入基于目标视频采样得到的上下文潜在序列;
[0028]生成器,用于基于帧特征的全局依赖和帧间信息交互对帧特征进行特征处理,同时将上下文潜在序列转换为过渡特征,并将帧特征与过渡特征拼接;
[0029]鉴别器,用于对拼接之后的帧特征与过渡特征进行鉴别得到视频摘要。
[0030]第三方面,本申请提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现上述任意实施例中的方法的步骤。
[0031]第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意实施例中的方法的步骤。
[0032]上述自监督对抗视频摘要提取方法、装置、计算机设备和存储介质,首次以自监督的方式解决视频摘要的提取,解决了有监督方法中数据集收集难、以及无监督方法中摘要特征不合理的问题,其中,获取目标视频,提取目标视频的帧特征,基于帧特征将目标视频分割为若干镜头,并在镜头之间嵌入基于目标视频采样得到的上下文潜在序列,基于帧特征的全局依赖和帧间信息交互对帧特征进行特征处理,同时将上下文潜在序列转换为过渡特征,并将帧特征与过渡特征拼接,对拼接之后的帧特征与过渡特征进行鉴别得到视频摘要,如此,通过过渡特征的嵌入使得鉴别提高了识别非重要视频片段的能力,并且依靠视频本身信息生成的过渡特征不会突破全局语义空间,提高视频摘要提取的合理性,另外,考虑全局依赖的同时强化同一镜头内的帧间信息交互进行特征处理,可以约束镜头内语义一致性,进一步提高视频摘要提取的合理性。
附图说明
[0033]为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自监督对抗视频摘要提取方法,其特征在于,所述方法包括:获取目标视频;提取所述目标视频的帧特征,基于所述帧特征将所述目标视频分割为若干镜头,并在所述镜头之间嵌入基于所述目标视频采样得到的上下文潜在序列;基于所述帧特征的全局依赖和帧间信息交互对所述帧特征进行特征处理,同时将所述上下文潜在序列转换为过渡特征,并将所述帧特征与所述过渡特征拼接;对拼接之后的所述帧特征与所述过渡特征进行鉴别得到视频摘要。2.根据权利要求1所述的方法,其特征在于,所述提取所述目标视频的帧特征,基于所述帧特征将所述目标视频分割为若干镜头包括:通过对所述目标视频进行降采样得到降采样视频,并对所述降采样视频进行特征提取,得到所述帧特征;基于所述帧特征通过核时序分割算法提取一系列所述目标视频的转变点,并根据所述转变点分割所述目标视频得到各个所述镜头。3.根据权利要求1所述的方法,其特征在于,所述在所述镜头之间嵌入基于所述目标视频采样得到的上下文潜在序列包括:基于所述目标视频的帧数和镜头数按照对应预设选择比平均分配形成所述上下文潜在序列,并嵌入于各个所述镜头之间。4.根据权利要求1所述的方法,其特征在于,在所述基于所述帧特征的全局依赖和帧间信息交互对所述帧特征进行特征处理之前,还包括:将同一所述镜头的所述帧特征求和,得到镜头级特征;对所述镜头级特征进行特征提取,获取同一所述镜头的共同特征;将所述共同特征与同一所述镜头的所述帧特征相加,得到新的所述帧特征。5.根据权利要求4所述的方法,其特征在于,基于帧级别至镜头级别的第一映射矩阵将同一所述镜头的所述帧特征求和,得到镜头级特征,基于Transformer模型对所述镜头级特征进行特征提取,获取同一所述镜头的共同特征,基于镜头级别至帧级别的第二映射矩阵将所述共同特征与同一所述镜头的所述帧特征相加,得到新的所述帧特征。6...

【专利技术属性】
技术研发人员:李浬李向顺袁峰邹凌云潘丽同
申请(专利权)人:杭州影象官科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1