空时多尺度交互的视频摘要生成方法及系统技术方案

技术编号：42495305 阅读：17 留言：0更新日期：2024-08-21 13:13

本发明专利技术公开了空时多尺度交互的视频摘要生成方法及系统，涉及图像处理技术领域。本发明专利技术包括：接收待处理视频构成数据集，对数据集进行改造，为数据集中每个视频添加类别，并将视频按照类别划分训练集和测试集，要求测试集中的类别不能在训练集中出现；根据划分的训练集和测试集，分别为其查询集选取支持集视频。本发明专利技术能够将传统视频摘要生成技术改造成面向少样本场景的视频摘要生成技术，模型仅需要少量的样本即可快速掌握同类视频的摘要生成所需关注的重点，对于训练中没有见过的类别可以快速泛化。并且利用双分支结构获取空时特征，并结合多尺度交互方式充分利用空时特征，为生成摘要提供多尺度的信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，具体为空时多尺度交互的视频摘要生成方法及系统。

技术介绍

1、自媒体时代背景下，每天都有大量的视频产生，仅仅依靠人工无法完成如此海量视频的监管。视频摘要旨在将冗长的视频压缩为更短、更易管理的版本，是一种可行的解决方案。然而，传统的视频摘要方法希望使用一个标准模型来总结所有类别的视频，这需要大量的人工标注数据进行训练，而人工标注的成本很高，因此有效利用可用数据资源至关重要，另一方面，现有的视频摘要方法忽视了一点，即相同类别视频的视频其摘要的重点是类似的，而不同类别的视频很有可能是不同的，因此摘要的重点可以根据视频片段的内容和上下文的不同而大不相同。摘要应捕捉视频的精华，同时满足观众的兴趣和需求，因此理解观众的期望和视频内容的关键要素对于制作有效的摘要至关重要。

2、现有技术中大多使用单一分支预测摘要，例如分别使用动态图和变换器架构的单一分支捕获空间-时间依赖关系，这些方法仅依赖于输入特征的单一尺度操作，这样的特征对于少样本视频摘要来说可能并不足以提供准确的信息。

技术实现思路

...

【技术保护点】

1.空时多尺度交互的视频摘要生成方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的空时多尺度交互的视频摘要生成方法，其特征在于，关于计算得到单尺度时序特征，计算过程如下：

3.根据权利要求2所述的空时多尺度交互的视频摘要生成方法，其特征在于，关于单尺度时序特征和类别相似性特征输入时序多尺度交互组件，得到时域多尺度融合特征，具体如下：

4.根据权利要求2所述的空时多尺度交互的视频摘要生成方法，其特征在于，将重组的查询集视觉特征、支持集视觉特征和支持集摘要特征输入到空间多尺度交互组件，得到空域多尺度融合特征，具体如下：>

5.根据权利...

【技术特征摘要】

1.空时多尺度交互的视频摘要生成方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的空时多尺度交互的视频摘要生成方法，其特征在于，关于计算得到单尺度时序特征，计算过程如下：

4.根据权利要求2所述的空时多尺度交互的视频摘要生成方法，其特征在于，将重组的查询集视觉特征、支持集视觉特征和支持集摘要特征输入到空间多尺度交互组件，得到空域多尺度融合特征，具体如下：

5.根据权利要求1所述的空时...

【专利技术属性】
技术研发人员：李群，湛朱喜，肖甫，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人