一种视频图像暴力行为检测模型及检测方法技术

技术编号：37721112 阅读：26 留言：0更新日期：2023-06-02 00:20

本发明专利技术涉及一种视频图像暴力行为检测模型及检测方法，采用轻量化结构和单阶段检测流程。采用双分支骨干特征提取网络，一路使用改进的I3D网络专注于提取时空特征，一路通过优化的RepVGG网络专注于提取关键帧的空间特征。通过通道融合注意力模块进一步强化骨干网络得到的时空特征，挖掘特征图各通道间的重要程度，得到两个尺度不同的有效特征层。通道剪枝加快模型推理速度。本发明专利技术由于采用了双分支结构的骨干特征提取网络、合理的特征融合方法、轻量化结构以及单阶段的检测流程，能够从视频流中自动检测暴力行为，取得了较优异的效果，能够从监控摄像头获取的视频影像中，实时识别暴力行为并及时告警，验证了本发明专利技术在实际使用中的有效性。中的有效性。中的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频图像暴力行为检测模型及检测方法

[0001]本专利技术属于人工智能和视频理解
，涉及一种视频图像暴力行为检测模型及检测方法，能够实现从实时监控视频中自动检测暴力行为，提供实时预警，并完成监控日志记录，可用于公共安全领域，协助治安管理及案件侦破。

技术介绍

[0002][0003]现有技术的方案：受到高精度目标检测算法Faster R
‑
CNN的启发，现有大多数工作将经典的两阶段网络架构应用于暴力行为检测中，基本思路为：对于待检测视频片段，首先，在第一阶段对视频中每帧图像执行目标检测算法，以产生多个动作候选框；其次，在第二阶段利用动作分类模型对行为进行分类和定位细化。
[0004]Feichtenhofer等人在文献“Feichtenhofer C,Fan H,Malik J,et al.Slowfast networks for video recognition[C]//Proc of IEEE/CVF ICCV.Piscataway,NJ:IEEE Press,2019:6201
‑
6210”中提出了用于视频行为识别的SlowFast网络，该网络首先利用Faster R
‑
CNN目标检测算法将每个视频帧中的人体进行定位，然后利用一个低频的慢速路径和高频的快速路径分别用于提取空间特征和时间特征，进而实现暴力行为检测。
[0005]Dong等人在文献“Dong Min,Fang Zhenglin,Li Yongfa,et al.AR3...

【技术保护点】

【技术特征摘要】
1.一种视频图像暴力行为检测模型，其特征在于包括特征提取网络依次连接通道融合注意力模块和分类回归模块；所述特征提取网络为双分支骨干特征提取网络，其中I3D网络，进行时空特征提取，另一路为优化的RepVGG网络，对关键帧进行空间特征提取；通道融合注意力模块强化得到的时空特征，得到两个尺度不同的有效特征层；以1
×
1卷积调整特征图通道数，输入分类器和回归器获得目标行为位置及其所属行为分类；所述优化的RepVGG网络是将RepVGGBlock4模块的输出的特征图作为ASPP的输入，首先经过并行的卷积和空洞卷积操作进行特征提取；其次，将提取到的特征图进行合并；然后，对合并后的特征图进行1
×
1卷积，压缩特征，得到最终输出。2.一种利用权利要求所述视频图像暴力行为检测模型对监控视频中的暴力行为检测方法，其特征在于步骤如下：步骤1、建立基础数据集：以M段暴力行为的视频图像作为视频数据，将每段视频切分为长度为16的图像帧序列作为基础数据集vioData；步骤2、数据集标注：在切分得到的视频帧图像中，标注是否包含暴力行为以及发生暴力行为的位置；步骤3、数据增强：将视频帧序列中的每幅图像做左右镜像处理，使训练集样本数扩充为原来的2倍；再随机改变扩充后图像RGB通道的亮度、对比度、饱和度来进行图像的色彩增强；步骤4、检测模型训练：将步骤3的图像输入到视频图像暴力行为检测模型进行训练，得到暴力行为检测模型；其中训练网络模型的损失函数包含：分类预测损失L
cls
、定位损失L
rect
以及置信度损失L
obj
；所述分类预测损失公式：所述分类预测损失公式：其中，N代表行为...

【专利技术属性】
技术研发人员：白小军，傅妍芳，王宗鑫，马振喜，
申请(专利权)人：西安工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人