【技术实现步骤摘要】
本专利技术属于视频理解和计算机视觉,具体涉及一种基于代理注意力及多尺度transformer的视频时序动作定位方法、系统、设备及介质。
技术介绍
1、随着社会信息化的迅猛发展,视频数据的规模和复杂性不断增加,视频自动分析的重要性日益提高。而在视频内容分析领域中,如何快速获取视频中的有效信息成为研究者们越来越重视的问题。作为视频内容分析领域的关键任务之一,视频时序动作定位技术在许多领域有着广泛的应用,包括视频监控与安防、智能交通系统、体育分析、广告和媒体分析以及医学图像分析等领域。因此,视频时序动作定位方法的改进不仅可以推动计算机视觉领域的技术进步,更在实际应用中具有深远的意义,其目标是在未裁剪的视频中定位出所有人体动作片段,为一系列下游任务提供支持。
2、目前,主流的视频时序动作定位方法可分为基于卷积网络的方法和基于transformer网络的方法。传统的视频时序动作定位方法通常采用手工设计的特征结合传统机器学习方法的方式,然而,随着深度学习的兴起,研究人员开始利用卷积网络解决视频问题。对于基于卷积网络的视频时序动作定位方法
...【技术保护点】
1.一种基于代理注意力及多尺度Transformer的视频时序动作定位方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于代理注意力及多尺度Transformer的视频时序动作定位方法,其特征在于,所述步骤2的具体方法为:
3.根据权利要求2所述的一种基于代理注意力及多尺度Transformer的视频时序动作定位方法,其特征在于,所述步骤2.1.1中的多尺度注意力模块MSA的结构为:
4.根据权利要求2所述的一种基于代理注意力及多尺度Transformer的视频时序动作定位方法,其特征在于,所述步骤2.2.1中的细粒度
...【技术特征摘要】
1.一种基于代理注意力及多尺度transformer的视频时序动作定位方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于代理注意力及多尺度transformer的视频时序动作定位方法,其特征在于,所述步骤2的具体方法为:
3.根据权利要求2所述的一种基于代理注意力及多尺度transformer的视频时序动作定位方法,其特征在于,所述步骤2.1.1中的多尺度注意力模块msa的结构为:
4.根据权利要求2所述的一种基于代理注意力及多尺度transformer的视频时序动作定位方法,其特征在于,所述步骤2.2.1中的细粒度代理自注意力模块fgasa的结构为:
5.根据权利要求4所述的一种基于代理注意力及多尺度transformer的视频...
【专利技术属性】
技术研发人员:古晶,张炜,孙博文,侯彪,毛莎莎,冯婕,杨淑媛,刘芳,焦李成,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。