自监督对抗视频摘要提取方法及装置制造方法及图纸

技术编号：35862714 阅读：34 留言：0更新日期：2022-12-07 10:53

本申请涉及一种自监督对抗视频摘要提取方法、装置、计算机设备和存储介质。方法包括：获取目标视频；提取目标视频的帧特征，基于帧特征将目标视频分割为若干镜头，并在镜头之间嵌入基于目标视频采样得到的上下文潜在序列；基于帧特征的全局依赖和帧间信息交互对帧特征进行特征处理，同时将上下文潜在序列转换为过渡特征，并将帧特征与过渡特征拼接；对拼接之后的帧特征与过渡特征进行鉴别得到视频摘要。本方法首次以自监督的方式解决视频摘要的提取，进一步提升了视频摘要提取的合理性。进一步提升了视频摘要提取的合理性。进一步提升了视频摘要提取的合理性。

全部详细技术资料下载

【技术实现步骤摘要】
自监督对抗视频摘要提取方法及装置

[0001]本申请涉及视频处理
，特别是涉及一种自监督对抗视频摘要提取方法及装置。

技术介绍

[0002]随着互联网和移动设备的发展，生活中的视频数量呈现出一种爆炸式增长，因此帮助人们在短时间内检索、理解以及管理视频的核心内容变得越来越重要。而视频摘要技术的目的就是将一个长时间的视频在一个相对较短的时间内尽可能的完整表现出来，并且能够捕捉原视频中有意义、且符合故事脉络的视频片段。在目前摘要方法中有静态视频摘要和动态视频摘要，静态视频摘要以帧为单位，挑选出关键帧然后进行拼接会出现一种类似电影快放的感觉。而动态视频以一个完整场景的镜头为单位，可以提供一种比较友好的浏览方式。
[0003]随着深度学习的普及，现有技术中存在以下几种方法进行动态视频摘要的处理，在有监督场景下，将视频帧的挑选作为一个二分类的任务，利用人工注释的真实数据集将视频帧进行分类，其主要的方法有基于传统的循环神经网络和注意力机制。但是这些方法的主要缺点在于需要大量的真实数据集作为参考，其数据集往往难以收集，限制了此类方法的发展。其次是在弱监督场景下，使用能够方便获得标签数据作为先验信息对模型进行训练，缺点在于由于先验信息的大量使用有可能导致模型出现偏置问题。最后无监督方法假定用户应该能从摘要视频中尽可能的推测出真实视频的场景和内容，使用传统的生成对抗网络(GAN,Generative Adversarial Networks)，将生成器生成的摘要视频和原视频进行鉴别以生成质量更高的摘要。这类方法在于使用重要...

【技术保护点】

【技术特征摘要】
1.一种自监督对抗视频摘要提取方法，其特征在于，所述方法包括：获取目标视频；提取所述目标视频的帧特征，基于所述帧特征将所述目标视频分割为若干镜头，并在所述镜头之间嵌入基于所述目标视频采样得到的上下文潜在序列；基于所述帧特征的全局依赖和帧间信息交互对所述帧特征进行特征处理，同时将所述上下文潜在序列转换为过渡特征，并将所述帧特征与所述过渡特征拼接；对拼接之后的所述帧特征与所述过渡特征进行鉴别得到视频摘要。2.根据权利要求1所述的方法，其特征在于，所述提取所述目标视频的帧特征，基于所述帧特征将所述目标视频分割为若干镜头包括：通过对所述目标视频进行降采样得到降采样视频，并对所述降采样视频进行特征提取，得到所述帧特征；基于所述帧特征通过核时序分割算法提取一系列所述目标视频的转变点，并根据所述转变点分割所述目标视频得到各个所述镜头。3.根据权利要求1所述的方法，其特征在于，所述在所述镜头之间嵌入基于所述目标视频采样得到的上下文潜在序列包括：基于所述目标视频的帧数和镜头数按照对应预设选择比平均分配形成所述上下文潜在序列，并嵌入于各个所述镜头之间。4.根据权利要求1所述的方法，其特征在于，在所述基于所述帧特征的全局依赖和帧间信息交互对所述帧特征进行特征处理之前，还包括：将同一所述镜头的所述帧特征求和，得到镜头级特征；对所述镜头级特征进行特征提取，获取同一所述镜头的共同特征；将所述共同特征与同一所述镜头的所述帧特征相加，得到新的所述帧特征。5.根据权利要求4所述的方法，其特征在于，基于帧级别至镜头级别的第一映射矩阵将同一所述镜头的所述帧特征求和，得到镜头级特征，基于Transformer模型对所述镜头级特征进行特征提取，获取同一所述镜头的共同特征，基于镜头级别至帧级别的第二映射矩阵将所述共同特征与同一所述镜头的所述帧特征相加，得到新的所述帧特征。6...

【专利技术属性】
技术研发人员：李浬，李向顺，袁峰，邹凌云，潘丽同，
申请(专利权)人：杭州影象官科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人