当前位置: 首页 > 专利查询>常州大学专利>正文

基于两阶段时空注意力的动作检测方法及系统技术方案

技术编号:40125497 阅读:16 留言:0更新日期:2024-01-23 21:19
本发明专利技术涉及计算机视觉技术领域,尤其涉及基于两阶段时空注意力的动作检测方法及系统,包括利用ResNet50提取视频帧图像特征;并利用改进FPN特征金字塔结构增强提取的视频特征,使用带有位置编码和线性展平层的Transformer编‑解码器来检测人体区域;利用时空注意力编码器对检测到的人体区域内的动作进行识别。本发明专利技术解决传统时空动作检测方法存在对长时间视频的检测精度较低以及训练时间过长;基于纯Transformer结构的动作检测方法由于token数量的增加而导致计算和内存复杂性呈二次增长且对小目标的检测精度较差的问题。

【技术实现步骤摘要】

本专利技术涉及计算机视觉,尤其涉及基于两阶段时空注意力的动作检测方法及系统


技术介绍

1、随着互联网的迅速发展和短视频平台的兴起,网络上的视频数量呈井喷式增长,如何对这些海量视频进行理解分类从而更好的利用这些资源已成为迫在眉睫的问题。时空动作检测是视频理解领域最具挑战性的任务之一,通过识别并定位视频中出现的人和动作,解决了时序和空间动作检测问题,在电影关键片段定位,短视频推荐和安防监控等领域有着广泛应用。

2、相比于静态图像,视频具有空间和时间两个维度上的特征信息,而能否有效从连续的视频帧中提取并利用这两类信息是视频理解任务的关键。传统时空动作检测使用基于cnn架构的3d卷积网络来提取时空信息,但卷积只能捕获局部的信息,不能对感受野之外的特征进行建模。虽然通过堆叠多个卷积的方式能够扩大感受野,但会增加长序列信息建模的计算量,因此3d卷积网络只能处理较短时间的视频输入,且训练时间过长。近年来出现了基于纯transformer结构的时空动作检测方法,通过二分图匹配将动作种类以集合的方式预测出来。但该方法同样面临多个问题,其一是随着序列长度(tok本文档来自技高网...

【技术保护点】

1.基于两阶段时空注意力的动作检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,步骤一具体包括:

3.根据权利要求2所述的基于两阶段时空注意力的动作检测方法,其特征在于,改进FPN特征金字塔结构是在现有FPN结构的低层特征之后添加了两个卷积层,从高层特征中提取更加鲁棒的特征,公式为:

4.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,步骤二具体包括:

5.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,动作识别由成对使用的Longforme...

【技术特征摘要】

1.基于两阶段时空注意力的动作检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,步骤一具体包括:

3.根据权利要求2所述的基于两阶段时空注意力的动作检测方法,其特征在于,改进fpn特征金字塔结构是在现有fpn结构的低层特征之后添加了两个卷积层,从高层特征中提取更加鲁棒的特征,公式为:

4.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,步骤二具体包括:

5.根据权利要求1所述的基于两阶段时空注意力的动作检测方法,其特征在于,动作识别由成对使用的longformer编码器和transformer编码器组成,longformer编码器在线性展平层之后添加了...

【专利技术属性】
技术研发人员:陈从平张春生陈奔徐志伟陆鹏李明春
申请(专利权)人:常州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1