一种基于特征增强VideoSwinTransformer的异常动作时空识别方法技术

技术编号:37781940 阅读:11 留言:0更新日期:2023-06-09 09:12
本发明专利技术公开了一种基于特征增强VideoSwinTransformer的异常动作时空识别方法,包括如下步骤:使用VideoSwinTransformer网络为基础构建动作识别模型,进行视频块嵌入,四阶段局部窗口内的多头自注意力运算,并使用空间金字塔池化结构进行特征增强;采用YoloX模型为基础搭建人体边框识别模型,抽取视频中间图像进行行人检测,使用ROI提取方法提取行人对应区域的视频特征并进行动作分类,判断视频中有无异常动作。实验证明该方法可以对监控视频的异常动作进行识别,能够证明本方法的有效性。法的有效性。法的有效性。

【技术实现步骤摘要】
一种基于特征增强VideoSwinTransformer的异常动作时空识别方法


[0001]本专利技术涉及基于深度学习的动作识别领域,特别涉及基于多头自注意力的神经网络和异常动作识别方法。

技术介绍

[0002]近年来,随着互联网与科技的不断发展,各种录像、监控设备得到了广泛使用。得益于这些大量监控录像系统的应用,我国的安防工程也得到了快速的发展。在各大城市的交通道路、标志建筑景点、市民公园和高校园区等人员集中和频繁流动特点的重要公共场所,都安装了大量的监控摄像头,这些录像为安全领域提供了大量的有效信息。但在信息提取与识别方面,还存在大量人眼观看录像判断敏感信息内容,既费时费力,又影响效率。因此,通过计算机视觉和人工智能技术实现对监控内容异常动作识别,可以快速提取关键信息,提高识别效率,并对公共场所人员异常行为做出快速响应,提高公共安全保障能力。
[0003]文献1(Feichtenhofer C,Fan H,Malik J,et al.SlowFast Networks for Video Recognition[C]//2019IEEE/CVF International Conference on Computer Vision(ICCV).IEEE,2019.)使用包含快慢双通道的卷积神经网络进行特征提取,在两个通道间使用信息交互的方法促进信息融合,并支持了基于原子标注数据集的时空动作识别。文献2(He K,Zhang X,Ren S,et al.Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2015,37(9):1904

1916.)提出了一种特征增强模块,可以有效增强计算机视觉中的特征信息获取效果。文献3(Liu Z,Lin Y,Cao Y,et al.VideoSwinTransformer:Hierarchical Vision Transformer using Shifted Windows[J].2021.)提出了一种新的Transformer网络框架,该方法在局部窗口内进行多头自注意力运算,并通过不断改变局部窗口的划分方式,实现窗口与窗口之间的信息相互流通。
[0004]专利1(易军,沈志龙,赵海航,赵怡恒,钟婉霞,肖亿,周伟,刘洪,赵猛.基于小目标和动作识别的人体异常行为检测系统[P].重庆市:CN113989930A,2022

01

28.)提出一个系统,该系统由摄像头,计算器服务端,以及智能检测系统组成,使用OpenPose算法分析判断人体行为是否存在异常行为。专利2(张凤全,程健,周锋,王桂玲.一种基于残差网络的多阶段人体异常动作检测方法[P].北京市:CN114202803A,2022

03

18.)基于残差网络进行多阶段人体异常动作检测,连续识别监控视频实例中出现的人体目标边界框和位置及尺寸大小,对每个监控视频实例的异常得分并进行加权融合,该方法可以有效实现监控异常检测,但在过程中需要面对多视频连续处理,造成计算量较大。专利3(曹先彬,罗晓燕,王昊臣,王帅.一种基于动作识别的轨道交通异常人员检测方法[P].北京市:CN110110613A,2019

08

09.)记录了一种基于动作识别的轨道交通异常人员检测方法,使用无人机巡检铁路,并对视频进行抽帧,通过对SSD检测模型进行训练并使用,获取每张视频帧图像中各个人员的位置信息,使用关键点检测模型预测每个人的关节坐标,将某时间段内的关节坐标
组成人体骨架序列,输入LSTM动作识别模型,识别每个人的动作类别。该方法使用了基于人体骨架提取的技术,但使用了多个模型,专利中包含SSD、关键点检测模型、Resnet

18、LSTM模型的使用,在实际部署时会面临复杂的模型嵌入问题和模型计算量开销问题。
[0005]以上异常动作识别方法基于神经网络通过骨架提取或目标检测相结合的方法对异常动作识别进行研究,但在主要的识别网络中均以卷积神经网络为基础进行特征提取,并且在提取关键点的过程中会调用多个网络联合预测,导致运行效率受到影响。本专利技术采用VideoSwinTransformer网络为基础搭建异常识别网络,并在其中使用YoloX网络进行空间维度的目标检测,再结合VideoSwinTransformer模型提取得到的特征进行动作检测,网络运行效率高,并使用空间金字塔池化特征增强模块,增强VideoSwinTransformer模型的特征表达能力,提升该方法的识别准确率。

技术实现思路

[0006]为解决基于监控视频的异常动作识别过程复杂、特征提取能力受限等问题,本文提出基于特征增强VideoSwinTransformer的异常动作时空识别方法,该方法使用VideoSwinTransformer网络为基础构建动作识别模型,并使用空间金字塔池化结构进行特征增强;采用YoloX模型为基础搭建人体边框识别模型进行行人检测,最终使用ROI提取方法提取行人对应区域的视频特征并进行动作分类,并判断视频中有无异常动作。
[0007]一种基于特征增强VideoSwinTransformer的异常动作时空识别方法,其特征在于,包括以下步骤:
[0008]S1、采集监控视频数据进行异常动作标注并将视频输入网络,对于输入的T
×
H
×
W
×
3视频信息(由T帧组成,每帧包含H
×
W
×
3个信息点),以2
×4×4×
3视频块大小作为基础的嵌入维度进行块嵌入,最终得到大小为(T/2)
×
(H/4)
×
(W/4)的互不重叠三维特征嵌入,并将每一个小视频块嵌入维度为C的特征块,C为可选择的嵌入维度,进行后续特征提取;
[0009]S2、使用以VideoSwinTransformer为基础搭建的特征提取网络对步骤S1中的嵌入数据进行特征提取,在特征提取网络中进行4阶段的空间维度下采样,在时间维度上保留全部信息不进行下采样;
[0010]S21、对嵌入后的视频按照M
×
M大小在空间上进行VideoSwinTransformer窗口划分,M为可选的窗口尺度大小;以VideoSwinTransformer窗口为基础块构建特征提取模块,网络由一个可以移动的多头自注意力运算模块和一个前向反馈网络组合构成,每一个前向反馈网络包含一个双层的多层感知机,每层后带有GELU激活函数和归一化层,并使用残差连接对各级进行连接,过程可表示如下:
[0011][0012][0013][0014][0015]其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于特征增强VideoSwinTransformer的异常动作时空识别方法,其特征在于,包括以下步骤:S1、采集监控视频数据进行异常动作标注并将视频输入网络,对于输入的T
×
H
×
W
×
3视频信息(由T帧组成,每帧包含H
×
W
×
3个信息点),以2
×4×4×
3视频块大小作为基础的嵌入维度进行块嵌入,最终得到大小为(T/2)
×
(H/4)
×
(W/4)的互不重叠三维特征嵌入,并将每一个小视频块嵌入维度为C的特征块,C为可选择的嵌入维度,进行后续特征提取;S2、使用以VideoSwinTransformer为基础搭建的特征提取网络对步骤S1中的嵌入数据进行特征提取,在特征提取网络中进行4阶段的空间维度下采样,在时间维度上保留全部信息不进行下采样;S3、对S2中得到的特征数据使用空间金字塔池化进行特征增强,抽取视频中的图像并使用目标检测网络YoloX获取视频中行人的边框位置,采用ROI模块提取对应区域特征,送入分类网络进行分类,得到最终的动作检测结果并判断是否存在异常动作。2.根据权利要求1所述的基于特征增强VideoSwinTransformer的异常动作时空识别方法,其特征在于,所述步骤S2包括如下步骤:S21、对嵌入后的视频按照M
×
M大小在空间上进行VideoSwinTransformer窗口划分,M为可选的窗口尺度大小;以VideoSwinTransformer窗口为基础块构建特征提取模块,网络由一个可以移动的多头自注意力运算模块和一个前向反馈网络组合构成,每一个前向反馈网络包含一个双层的多层感知机,每层后带有GELU激活函数和归一化层,并使用残差连接对各级进行连接,过程可表示如下:对各级进行连接,过程可表示如下:对各级进行连接,过程可表示如下...

【专利技术属性】
技术研发人员:王龙业谢安恒
申请(专利权)人:西南石油大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1