一种基于代理注意力及多尺度Transformer的视频时序动作定位方法、系统、设备及介质技术方案

技术编号:42079218 阅读:17 留言:0更新日期:2024-07-19 16:57
一种基于代理注意力及多尺度Transformer的视频时序动作定位方法、系统、设备及介质,方法:利用预训练的特征提取器从输入视频中提取特征;构建基于代理自注意力和多尺度Transformer的时序动作定位模型,堆叠七个Transformer模块,用于对输入的视频特征进行编码,提取关键信息;将多尺度Transformer模块和代理Transformer模块输出的不同尺度特征送入到回归头和分类头中,得到定位结果,即未裁剪视频中动作实例的开始时刻、结束时刻以及动作的类别标签;系统、设备及介质用于实现该方法;本发明专利技术通过结合卷积和Transformer架构的混合模块及细粒度代理自注意力模块,降低视频特征间的相似度,减少模型的参数量和计算复杂度,提高模型的表征能力,进而提高视频动作定位精度。

【技术实现步骤摘要】

本专利技术属于视频理解和计算机视觉,具体涉及一种基于代理注意力及多尺度transformer的视频时序动作定位方法、系统、设备及介质。


技术介绍

1、随着社会信息化的迅猛发展,视频数据的规模和复杂性不断增加,视频自动分析的重要性日益提高。而在视频内容分析领域中,如何快速获取视频中的有效信息成为研究者们越来越重视的问题。作为视频内容分析领域的关键任务之一,视频时序动作定位技术在许多领域有着广泛的应用,包括视频监控与安防、智能交通系统、体育分析、广告和媒体分析以及医学图像分析等领域。因此,视频时序动作定位方法的改进不仅可以推动计算机视觉领域的技术进步,更在实际应用中具有深远的意义,其目标是在未裁剪的视频中定位出所有人体动作片段,为一系列下游任务提供支持。

2、目前,主流的视频时序动作定位方法可分为基于卷积网络的方法和基于transformer网络的方法。传统的视频时序动作定位方法通常采用手工设计的特征结合传统机器学习方法的方式,然而,随着深度学习的兴起,研究人员开始利用卷积网络解决视频问题。对于基于卷积网络的视频时序动作定位方法,通常可以划分为两阶本文档来自技高网...

【技术保护点】

1.一种基于代理注意力及多尺度Transformer的视频时序动作定位方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于代理注意力及多尺度Transformer的视频时序动作定位方法,其特征在于,所述步骤2的具体方法为:

3.根据权利要求2所述的一种基于代理注意力及多尺度Transformer的视频时序动作定位方法,其特征在于,所述步骤2.1.1中的多尺度注意力模块MSA的结构为:

4.根据权利要求2所述的一种基于代理注意力及多尺度Transformer的视频时序动作定位方法,其特征在于,所述步骤2.2.1中的细粒度代理自注意力模块FG...

【技术特征摘要】

1.一种基于代理注意力及多尺度transformer的视频时序动作定位方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于代理注意力及多尺度transformer的视频时序动作定位方法,其特征在于,所述步骤2的具体方法为:

3.根据权利要求2所述的一种基于代理注意力及多尺度transformer的视频时序动作定位方法,其特征在于,所述步骤2.1.1中的多尺度注意力模块msa的结构为:

4.根据权利要求2所述的一种基于代理注意力及多尺度transformer的视频时序动作定位方法,其特征在于,所述步骤2.2.1中的细粒度代理自注意力模块fgasa的结构为:

5.根据权利要求4所述的一种基于代理注意力及多尺度transformer的视频...

【专利技术属性】
技术研发人员:古晶张炜孙博文侯彪毛莎莎冯婕杨淑媛刘芳焦李成
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1