一种视频图像暴力行为检测模型及检测方法技术

技术编号:37721112 阅读:26 留言:0更新日期:2023-06-02 00:20
本发明专利技术涉及一种视频图像暴力行为检测模型及检测方法,采用轻量化结构和单阶段检测流程。采用双分支骨干特征提取网络,一路使用改进的I3D网络专注于提取时空特征,一路通过优化的RepVGG网络专注于提取关键帧的空间特征。通过通道融合注意力模块进一步强化骨干网络得到的时空特征,挖掘特征图各通道间的重要程度,得到两个尺度不同的有效特征层。通道剪枝加快模型推理速度。本发明专利技术由于采用了双分支结构的骨干特征提取网络、合理的特征融合方法、轻量化结构以及单阶段的检测流程,能够从视频流中自动检测暴力行为,取得了较优异的效果,能够从监控摄像头获取的视频影像中,实时识别暴力行为并及时告警,验证了本发明专利技术在实际使用中的有效性。中的有效性。中的有效性。

【技术实现步骤摘要】
一种视频图像暴力行为检测模型及检测方法


[0001]本专利技术属于人工智能和视频理解
,涉及一种视频图像暴力行为检测模型及检测方法,能够实现从实时监控视频中自动检测暴力行为,提供实时预警,并完成监控日志记录,可用于公共安全领域,协助治安管理及案件侦破。

技术介绍

[0002][0003]现有技术的方案:受到高精度目标检测算法Faster R

CNN的启发,现有大多数工作将经典的两阶段网络架构应用于暴力行为检测中,基本思路为:对于待检测视频片段,首先,在第一阶段对视频中每帧图像执行目标检测算法,以产生多个动作候选框;其次,在第二阶段利用动作分类模型对行为进行分类和定位细化。
[0004]Feichtenhofer等人在文献“Feichtenhofer C,Fan H,Malik J,et al.Slowfast networks for video recognition[C]//Proc of IEEE/CVF ICCV.Piscataway,NJ:IEEE Press,2019:6201

6210”中提出了用于视频行为识别的SlowFast网络,该网络首先利用Faster R

CNN目标检测算法将每个视频帧中的人体进行定位,然后利用一个低频的慢速路径和高频的快速路径分别用于提取空间特征和时间特征,进而实现暴力行为检测。
[0005]Dong等人在文献“Dong Min,Fang Zhenglin,Li Yongfa,et al.AR3D:attention residual 3D network for human action recognition[J].Sensors,2021,21(5):1656

1669”中利用残差结构和注意机制对现有的3D卷积模型进行了改进,提出了注意残差3D网络(AR3D),加强了人体行为特征的提取。
[0006]李颀等人在文献“基于轻量级图卷积网络的校园暴力行为识别”中提出了一种基于轻量级图卷积的人体骨架数据的行为识别方法,通过多信息流数据融合与自适应图卷积相结合的方式,实现了行为识别。
[0007]现有技术的缺点:以上方法在暴力行为检测中存在三个缺陷,首先,由跨多个帧的边界框组成的动作管道的生成要比二维的情况复杂得多,也更加费时;其次,动作候选框只关注视频中人体的特征,忽略了人体与背景的潜在关联,此种潜在关联往往能够为行为预测提供关键的上下文信息;第三,分别训练目标检测网络和行为分类网络并不能保证找到全局最优,训练成本也比单阶段网络高,因此需要更长的时间和更多的内存。

技术实现思路

[0008]要解决的技术问题
[0009]为了避免现有技术的不足之处,本专利技术提出一种视频图像暴力行为检测模型及检测方法,采用双分支结构的骨干特征提取网络,一路专注于提取时空特征,一路专注于提取空间特征,两分支特征对于最终的目标行为定位具有互补作用,克服了两阶段方法只关注视频中人体区域特征的不足,表现出与现有最优方法相当的检测精度;同时,本专利技术采用轻量化结构和单阶段检测流程,可以端到端进行模型训练与预测,大幅度降低了训练成本,并
具有更高的检测效率。
[0010]技术方案
[0011]一种视频图像暴力行为检测模型,其特征在于包括特征提取网络依次连接通道融合注意力模块和分类回归模块;所述特征提取网络为双分支骨干特征提取网络,其中I3D网络,进行时空特征提取,另一路为优化的RepVGG网络,对关键帧进行空间特征提取;通道融合注意力模块强化得到的时空特征,得到两个尺度不同的有效特征层;以1
×
1卷积调整特征图通道数,输入分类器和回归器获得目标行为位置及其所属行为分类;所述优化的RepVGG网络是将RepVGGBlock4模块的输出的特征图作为ASPP的输入,首先经过并行的卷积和空洞卷积操作进行特征提取;其次,将提取到的特征图进行合并;然后,对合并后的特征图进行1
×
1卷积,压缩特征,得到最终输出。
[0012]一种利用述视频图像暴力行为检测模型对监控视频中的暴力行为检测方法,其特征在于步骤如下:
[0013]步骤1、建立基础数据集:以M段暴力行为的视频图像作为视频数据,将每段视频切分为长度为16的图像帧序列作为基础数据集vioData;
[0014]步骤2、数据集标注:在切分得到的视频帧图像中,标注是否包含暴力行为以及发生暴力行为的位置;
[0015]步骤3、数据增强:将视频帧序列中的每幅图像做左右镜像处理,使训练集样本数扩充为原来的2倍;再随机改变扩充后图像RGB通道的亮度、对比度、饱和度来进行图像的色彩增强;
[0016]步骤4、检测模型训练:将步骤3的图像输入到视频图像暴力行为检测模型进行训练,得到暴力行为检测模型;
[0017]其中训练网络模型的损失函数包含:分类预测损失L
cls
、定位损失L
rect
以及置信度损失L
obj

[0018]所述分类预测损失公式:
[0019][0020][0021]其中,N代表行为类别总数,x
i
为类别预测值,y
i
为激活函数后得到的当前类别概率,y为当前类别真实值;
[0022]所述定位损失公式:
[0023][0024][0025][0026][0027]其中,w
gt
和h
gt
表示真实框的宽和高,w和h表示预测框的宽和高,v表示预测框与真实框长宽比例差值的归一化,p2表示计算真实框与预测框之间的中心点距离,α是权衡长宽比例造成损失和IoU造成损失的平衡因子;
[0028]所述置信度损失公式:
[0029][0030][0031]其中,N表示特征点数量,Ci为置信度预测值,Ci为激活函数后得到的当前置信度概率,C则为当前位置置信度真实值,有目标为1,无目标为0;
[0032]最后,将三个损失函数整合成一个总的损失函数,L=a1×
L
cls
+a2×
L
rect
+a3
×
L
obj
,其中,a1=0.4,a2=0.3,a3=0.3,当最小化该损失函数能使暴力行为检测模型收敛;
[0033]步骤5:将监控摄像头实时获取的视频数据切分成视频帧序列,并将一段段视频帧序列作为暴力行为检测模型的输入;然后进行模型前向推理,得到检测结果,当暴力行为预测的分类置信度大于0.5时,视为发生了暴力行为;一旦检测到暴力行为就进行告警,并做日志记录包括但不限于时间地点,一同将检测到的暴力行为片段和日志存到数据库中。
[0034]构建了基础数据集VioData,并对视频帧序列数据进行数据增强,执行暴力行为检测时将依次经过特征提取网络、通道融合注意力模块以及分类回归模块。
[0035]有益效本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频图像暴力行为检测模型,其特征在于包括特征提取网络依次连接通道融合注意力模块和分类回归模块;所述特征提取网络为双分支骨干特征提取网络,其中I3D网络,进行时空特征提取,另一路为优化的RepVGG网络,对关键帧进行空间特征提取;通道融合注意力模块强化得到的时空特征,得到两个尺度不同的有效特征层;以1
×
1卷积调整特征图通道数,输入分类器和回归器获得目标行为位置及其所属行为分类;所述优化的RepVGG网络是将RepVGGBlock4模块的输出的特征图作为ASPP的输入,首先经过并行的卷积和空洞卷积操作进行特征提取;其次,将提取到的特征图进行合并;然后,对合并后的特征图进行1
×
1卷积,压缩特征,得到最终输出。2.一种利用权利要求所述视频图像暴力行为检测模型对监控视频中的暴力行为检测方法,其特征在于步骤如下:步骤1、建立基础数据集:以M段暴力行为的视频图像作为视频数据,将每段视频切分为长度为16的图像帧序列作为基础数据集vioData;步骤2、数据集标注:在切分得到的视频帧图像中,标注是否包含暴力行为以及发生暴力行为的位置;步骤3、数据增强:将视频帧序列中的每幅图像做左右镜像处理,使训练集样本数扩充为原来的2倍;再随机改变扩充后图像RGB通道的亮度、对比度、饱和度来进行图像的色彩增强;步骤4、检测模型训练:将步骤3的图像输入到视频图像暴力行为检测模型进行训练,得到暴力行为检测模型;其中训练网络模型的损失函数包含:分类预测损失L
cls
、定位损失L
rect
以及置信度损失L
obj
;所述分类预测损失公式:所述分类预测损失公式:其中,N代表行为...

【专利技术属性】
技术研发人员:白小军傅妍芳王宗鑫马振喜
申请(专利权)人:西安工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1