System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于注意力与知识蒸馏的视频检索方法技术_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于注意力与知识蒸馏的视频检索方法技术

技术编号:40342571 阅读:5 留言:0更新日期:2024-02-09 14:29
本发明专利技术公开了一种基于注意力与知识蒸馏的视频检索方法,属于视频检索匹配技术领域。利用区域最大卷积激活策略提取不同粒度级别的特征图,生成完整视频的帧级特征,消除简单干扰帧后根据每个帧的注意力权重计算最终视频帧特征;对于每个视频对样本,教师网络在索引阶段得到最终视频帧特征,在检索阶段基于最终视频帧特征计算视频对之间的相似度,采用三元组损失训练教师网络;利用教师网络分别指导训练细粒度学生网络和粗粒度学生网络;评估粗粒度学生网络计算的视频相似度,决定是否调用细粒度学生网络,最终获得视频间的相似度结果实现检索。基于本发明专利技术提出的视频检索方法可获得具有较高准确率和较高的检索效率。

【技术实现步骤摘要】

本专利技术属于视频检索匹配,尤其涉及一种基于注意力与知识蒸馏的视频检索方法


技术介绍

1、基于内容的视频检索匹配技术,旨在通过分析视频内容的特征和信息,实现从视频数据库中检索和匹配相似内容的视频。在这种方法中,视频的视觉、音频、文本等内容特征被用作检索的关键标志,以识别在视觉和语义上与查询视频相似的视频。视频检索在媒体管理和内容检索、社交媒体分析、智能监控和安全、医学图像分析和电子商务广告等方面具有广泛的应用,随着技术的不断发展,视频检索在越来越多的领域将会发挥更加重要的作用,为用户提供更丰富、精准的信息和服务。

2、视频检索过程可以分为两个主要阶段,即索引和检索。在给定一个查询视频的情况下,必须计算其与数据库中所有视频之间的相似性,以根据获得的相似性的计算结果进行排序,以便检索出目标视频。然而,视频检索在处理大规模的视频数据时面临诸多挑战,需要在低计算和存储成本下实现高效率的索引和快速的检索。

3、视频检索主要有粗粒度方法、细粒度方法以及粗粒度与细粒度结合三种方法:

4、1.粗粒度方法采用将帧级别的特征聚合成单个视频级向量的方式,接着使用简单函数计算视频之间的相似性。粗粒度方法在计算相似性时具有轻量级和快速计算的优势,同时存储要求也相对较低。然而,尽管其速度较快,粗粒度方法的检索性能却表现较低,无法满足对精准性的要求。2.细粒度方法在提取帧级别的特征向量的同时,实现了视频的空间与时间索引,从而更精细地利用了时空特征来进行视频检索。这种方法可以获得更好的检索结果,但其显著的计算量和资源需求却是一个挑战。3.粗粒度与细粒度结合的方法,此方法首先基于粗粒度的计算结果进行相似性排序,通过滤掉低于预定义阈值的视频来进行初步筛选。然后,细粒度方法用于重新计算相似性,以进行进一步的重排序。这种方法将两种方法的优点相结合,既降低了检索过程的计算量,同时也保证了较高的检索性能。然而粗细粒度结合方法的一个困难之处在于阈值的设定,固定的阈值不仅难以进行学习,若设置不合理还可能导致出现次优的检索性能。


技术实现思路

1、为了解决上述技术问题,本专利技术公开了一种基于注意力与知识蒸馏的视频检索方法,利用区域最大卷积激活策略提取视频的多种粒度级别的帧级别的特征张量,利用注意力机制识别并消除简单干扰帧,并使用时态注意模块和主题引导模块进一步处理获得每个视频帧的注意力权重,从而识别并抑制与整个视频主题无关的困难干扰帧;利用知识蒸馏的方法通过教师网络指导训练粗粒度学生网络和细粒度学生网络,用于计算经过注意力机制处理后的查询视频与目标视频的视频相似性,最终利用可学习的选择模块,获得视频间的相似度结果实现检索。基于本专利技术提出的视频检索方法可获得具有较高准确率和较高的检索效率。

2、本专利技术解决其技术问题所采用的技术方案如下:

3、一种基于注意力与知识蒸馏的视频检索方法,包括以下步骤:

4、步骤(1).利用区域最大卷积激活策略提取不同粒度级别的特征图,生成完整视频的帧级特征;

5、步骤(2).从完整视频的帧级特征中消除简单干扰帧;

6、步骤(3).根据消除简单干扰帧后的帧级特征,计算每个帧的注意力权重,得到经过注意力权重加权的最终视频帧特征;

7、步骤(4).对于每个视频对样本,教师网络在索引阶段采用步骤(1)至(3)的方法得到最终视频帧特征,在检索阶段基于最终视频帧特征计算视频对的帧间相似度矩阵并优化,利用优化后的帧间相似度矩阵计算视频对之间的相似度,采用三元组损失训练教师网络;

8、步骤(5).利用教师网络分别指导训练细粒度学生网络和粗粒度学生网络;

9、步骤(6).采用步骤(1)至(3)的方法得到查询视频与目标视频的最终视频帧特征,并根据最终视频帧特征分别计算查询视频与目标视频的自相似度;

10、步骤(7).通过训练后的粗粒度学生网络获取查询视频与目标视频的粗粒度相似度,拼接步骤(6)得到的自相似度和步骤(7)得到的粗粒度相似度,利用选择器判断模块生成置信度分数,若置信度分数高于阈值,则以粗粒度相似度作为最终相似度完成视频检索,否则调用细粒度学生网络,以细粒度学生网络生成的细粒度相似度作为最终相似度完成视频检索。

11、进一步地,所述的步骤(1)包括:

12、步骤(1.1).将视频输入由k层卷积层构成的网络,对每层卷积层应用区域最大卷积激活策略,生成k个不同粒度级别的特征图;

13、步骤(1.2).拼接k个不同粒度级别的特征图,得到拼接特征图;

14、步骤(1.3).在拼接特征图的通道维度应用归一化处理,对归一化处理后的拼接特征图使用pca降维,生成完整视频的帧级特征。

15、进一步地,所述的步骤(2)包括:

16、步骤(2.1).从所有视频样本的帧级特征中构建一个幅值小于或等于幅值阈值的简单干扰帧集合;

17、步骤(2.2).将简单干扰帧集合的帧级特征注入到视频样本的帧级特征中,利用简单干扰帧消除模块识别注入的简单干扰帧并将其从视频样本中移除;

18、步骤(2.3).使用辨别损失函数ldi训练简单干扰帧消除模块:

19、

20、其中,yi为第i个视频样本的标签值集合,pi为第i个视频样本计算的置信度集合,n表示用于训练的视频样本数量。

21、进一步地,所述的步骤(3)包括:

22、步骤(3.1).从消除简单干扰帧后的视频中随机抽取部分帧,基于注意力机制生成帧权重信息,计算显著性标签:

23、

24、其中,wi是基于注意力机制生成的从视频中随机抽取的部分帧中的第i帧的权重,t″是创建显著性标签的视频帧序列长度,即随机抽取的部分帧数量;h是heaviside阶跃函数,w是视频中随机抽取的部分帧的最高相似度;

25、步骤(3.2).标记有显著贡献的帧位置,若视频帧的权重wi大于随机抽取的所有帧的权重平均数则为1,反之则为0;

26、步骤(3.3).获取每一个视频样本的显著性标签并标记有显著贡献的帧位置,根据显著性标签和显著贡献的帧位置计算每一个视频样本的自相似性图,将自相似性图输入到时态显著性权重计算模型中,生成视频中随机抽取的部分帧的时态显著性权重;

27、计算显著性权重和显著性标签之间的交叉熵损失,训练时态显著性权重计算模型;根据训练后的时态显著性权重计算模型生成的时态显著性权重,采用最近邻插值法生成视频中未计算时态显著性权重的帧对应的时态显著性权重值;

28、步骤(3.4).将视频全局平均池化后生成视频主题;

29、步骤(3.5).计算视频主题与消除简单干扰帧后的帧级特征之间的余弦相似度,将计算得到的余弦相似度作为初始状态i;以初始状态i为输入,利用主题引导模块生成视频主题引导权重;

30、步骤(3.6).将步骤(3.3)得到的显著性权重和步骤(3.5)得到的视频主题引本文档来自技高网...

【技术保护点】

1.一种基于注意力与知识蒸馏的视频检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(1)包括:

3.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(2)包括:

4.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(3)包括:

5.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(4)包括:

6.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(5)中,细粒度学生网络在索引阶段压缩教师网络在索引阶段生成的视频的帧级特征维度,检索阶段与教师网络的检索阶段相同;粗粒度学生网络在索引阶段将教师网络在索引阶段生成的视频的帧级特征聚合为视频级特征,在检索阶段采用余弦相似度计算视频相似度。

7.根据权利要求5所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的粗粒度学生网络将教师网络在索引阶段生成的视频的帧级特征通过Transformer网络处理后,采用NetVLAD方法聚合为1D向量,得到视频级特征。

8.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(6)包括:

9.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的选择器判断模块采用多层感知机。

10.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的选择器判断模块在训练时,伪标签采用下述公式获取:

...

【技术特征摘要】

1.一种基于注意力与知识蒸馏的视频检索方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(1)包括:

3.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(2)包括:

4.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(3)包括:

5.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(4)包括:

6.根据权利要求1所述的基于注意力与知识蒸馏的视频检索方法,其特征在于,所述的步骤(5)中,细粒度学生网络在索引阶段压缩教师网络在索引阶段生成的视频的帧级特征维度,检索阶段与教师网络的检索阶段相同;粗粒度学生...

【专利技术属性】
技术研发人员:丁勇刘琳琳胡亚坤牛乐乐何乐年
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1