一种基于特征增强VideoSwinTransformer的异常动作时空识别方法技术

技术编号：37781940 阅读：11 留言：0更新日期：2023-06-09 09:12

本发明专利技术公开了一种基于特征增强VideoSwinTransformer的异常动作时空识别方法，包括如下步骤：使用VideoSwinTransformer网络为基础构建动作识别模型，进行视频块嵌入，四阶段局部窗口内的多头自注意力运算，并使用空间金字塔池化结构进行特征增强；采用YoloX模型为基础搭建人体边框识别模型，抽取视频中间图像进行行人检测，使用ROI提取方法提取行人对应区域的视频特征并进行动作分类，判断视频中有无异常动作。实验证明该方法可以对监控视频的异常动作进行识别，能够证明本方法的有效性。法的有效性。法的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于特征增强VideoSwinTransformer的异常动作时空识别方法

[0001]本专利技术涉及基于深度学习的动作识别领域，特别涉及基于多头自注意力的神经网络和异常动作识别方法。

技术介绍

[0002]近年来，随着互联网与科技的不断发展，各种录像、监控设备得到了广泛使用。得益于这些大量监控录像系统的应用，我国的安防工程也得到了快速的发展。在各大城市的交通道路、标志建筑景点、市民公园和高校园区等人员集中和频繁流动特点的重要公共场所，都安装了大量的监控摄像头，这些录像为安全领域提供了大量的有效信息。但在信息提取与识别方面，还存在大量人眼观看录像判断敏感信息内容，既费时费力，又影响效率。因此，通过计算机视觉和人工智能技术实现对监控内容异常动作识别，可以快速提取关键信息，提高识别效率，并对公共场所人员异常行为做出快速响应，提高公共安全保障能力。
[0003]文献1(Feichtenhofer C,Fan H,Malik J,et al.SlowFast Networks for Video Recognition[C]//2019IEEE/CVF International Conference on Computer Vision(ICCV).IEEE,2019.)使用包含快慢双通道的卷积神经网络进行特征提取，在两个通道间使用信息交互的方法促进信息融合，并支持了基于原子标注数据集的时空动作识别。文献2(He K,Zhang X,Ren S,et al.Spatial Pyramid Pooling in ...

【技术保护点】

【技术特征摘要】
1.一种基于特征增强VideoSwinTransformer的异常动作时空识别方法，其特征在于，包括以下步骤：S1、采集监控视频数据进行异常动作标注并将视频输入网络，对于输入的T
×
H
×
W
×
3视频信息(由T帧组成，每帧包含H
×
W
×
3个信息点)，以2
×4×4×
3视频块大小作为基础的嵌入维度进行块嵌入，最终得到大小为(T/2)
×
(H/4)
×
(W/4)的互不重叠三维特征嵌入，并将每一个小视频块嵌入维度为C的特征块，C为可选择的嵌入维度，进行后续特征提取；S2、使用以VideoSwinTransformer为基础搭建的特征提取网络对步骤S1中的嵌入数据进行特征提取，在特征提取网络中进行4阶段的空间维度下采样，在时间维度上保留全部信息不进行下采样；S3、对S2中得到的特征数据使用空间金字塔池化进行特征增强，抽取视频中的图像并使用目标检测网络YoloX获取视频中行人的边框位置，采用ROI模块提取对应区域特征，送入分类网络进行分类，得到最终的动作检测结果并判断是否存在异常动作。2.根据权利要求1所述的基于特征增强VideoSwinTransformer的异常动作时空识别方法，其特征在于，所述步骤S2包括如下步骤：S21、对嵌入后的视频按照M
×
M大小在空间上进行VideoSwinTransformer窗口划分，M为可选的窗口尺度大小；以VideoSwinTransformer窗口为基础块构建特征提取模块，网络由一个可以移动的多头自注意力运算模块和一个前向反馈网络组合构成，每一个前向反馈网络包含一个双层的多层感知机，每层后带有GELU激活函数和归一化层，并使用残差连接对各级进行连接，过程可表示如下：对各级进行连接，过程可表示如下：对各级进行连接，过程可表示如下...

【专利技术属性】
技术研发人员：王龙业，谢安恒，
申请(专利权)人：西南石油大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人