一种监控场景下的轻量化暴力行为识别方法技术

技术编号:36607168 阅读:27 留言:0更新日期:2023-02-04 18:31
本发明专利技术涉及视频分析与

【技术实现步骤摘要】
一种监控场景下的轻量化暴力行为识别方法


[0001]本专利技术涉及视频分析与行为识别领域,具体而言,尤其涉及一种监控场景下的轻量化暴力行为识别方法。

技术介绍

[0002]公共安全问题一直都是社会关注的焦点。及时有效地发现暴力行为,可以避免冲突进一步恶化。监控系统是保护人民群众人身安全,维护社会环境和平稳定的重要手段。随着硬件技术的进步、成本的降低,监控设备早已遍布各个角落。商场、银行、路口、广场、车站等公共场所都配备了大量的摄像头,甚至很多家庭也安装了多组监控组成智能家居系统,用于防火防盗、监护老人。
[0003]传统监控系统依赖人工去筛选视频中的信息。一人能够同时监控的场景数量有限,而且视频中大量信息是无用的,人眼长时间观察后很容易因视觉疲劳、注意力下降而出现漏报警的现象。由于费时费力,效率低下,且易存在漏报警情况,传统监控系统已经越来越无法满足实际的监控需求。
[0004]智能视频监控系统在监控系统中增加了视频分析模块。该模块依靠机器学习技术和计算机视觉技术充分发挥计算机强大的数据处理能力代替人工筛选有用信息和过滤干扰信息。智能视频监控系统可以做到全自动、全天候、实时地监控。一旦监控画面中出现异常情况能够第一时间发出警报或做出反应。与传统监控系统相比,不仅漏检率低,而且节省人力、物力。
[0005]近年来,深度学习技术的发展与应用极大地促进了计算机视觉、自然语音处理等系列相关领域的飞速发展,开启了人工智能新时代。深度学习技术在暴力行为检测课题的研究上也取得了非常好的效果,为智能视频监控技术提供了新的研究思路及解决方案。一方面,拥有高性能GPU设备的支持,深度学习技术可以很好地解决模型参数多、计算量大的问题。硬件技术的进步为监控系统实时检和处理视频数据提供了基础保障。另一方面,深度学习模型在学习过程中需要足够多的训练样本,海量的视频数据可以满足模型训练时的样本需求。综上所述,在视频监控的背景下依靠深度学习技术进行暴力行为检测的方法是资源合理分配、高效执行安全防控任务的重要手段,具有重要的理论意义与应用价值。
[0006]目前,基于深度学习的暴力行为识别方法大致可分为:基于三维卷积神经网络(3D CNN)和基于二维卷积神经网络(2D CNN)的方法。基于3D CNN的方法可以获得较好的识别准确率,但是模型参数量往往过于庞大,涉及大量计算,对设备要求较高,且实时性差。基于2D CNN的方法模型参数量和计算量相对于3D CNN都有了极大程度的降低,但失去了建模时间域信息的能力,导致识别准确率较差。
[0007]因此,如何在模型识别准确率、参数量、计算量之间取得较好的平衡成了值得探究的问题。

技术实现思路

[0008]本专利技术提供了一种监控场景下的轻量化暴力行为识别方法,该方法结合了多种注意力机制,并以2D CNN作为骨干网络,构建了一种轻量化双流网络模型。在上述模型中涉及一种施加正则约束的多尺度时空激励模块,用于提取多尺度时空特征;涉及一种施加正则约束的时间激励模块,将经过裁剪的2D CNN的输出作为该模块的输入进行时间特征提取;涉及一种施加正则约束的融合激励模块来自适应地校准双流模型不同支流维度的特征响应。具体技术方案如下:
[0009]一种监控场景下的轻量化暴力行为识别方法,包括以下步骤:
[0010]步骤1,获取监控场景下的视频数据,对视频数据进行预处理和数据增强;
[0011]步骤2,将步骤1处理得到的数据作为输入,进行数据时空特征的提取;
[0012]步骤3,对双流特征进行特征融合;
[0013]步骤4,通过全连接层构成的分类器,进行暴力/非暴力行为的类别判决。
[0014]进一步的,步骤1具体如下:利用视频采集工具获取监控场景下的视频数据后,通过OpenCV工具来获取视频帧序列,并通过numpy库将其转换成易于处理的数据格式,随后使用均匀采样的方式,对视频序列进行采样去除视频序列中的冗余信息;并进行图像水平/垂直翻转、旋转、颜色扰动、光线扰动操作;随后,分别对经上述处理的视频帧序列做帧间差分操作和背景减除操作,分别作为双流网络帧间差分支流和背景减除支流的输入。
[0015]进一步的,步骤2具体如下:
[0016]步骤2.1,通过多个不同卷积核大小的卷积算子来构建多尺度时空激励模块,以此获取多尺度时空特征,并通过正则约束来提高模型抗过拟合能力;
[0017]步骤2.2,将经过步骤2.1处理后的数据作为经过裁剪的轻量化2D CNN的输入做进一步的空间特征提取工作;
[0018]步骤2.3,以步骤2.2处理后的数据作为施加正则约束的时间激励模块的输入,显式地建模时间维度的相互依赖关系,并通过正则约束来提高模型抗过拟合能力。
[0019]进一步的,步骤2.1具体如下:输入B、T、H、W表示批大小、时间、单个视频帧图片的高度、单个视频帧图片的宽度,通道维度为3,在通道维度取平均以得到包含全局通道信息的时空特征图
[0020][0021]“:”表示这个维度上的所有取值;
[0022]将此特征图输入给拥有不同卷积核大小的3D卷积层K1,K2,K3,分别得到特征图并采用通道拼接的方式对特征进行整合,得到该过程表述为
[0023]F1=K1*F
[0024]F2=K2*F
[0025]F3=K3*F
[0026]Concat[F1,F2,F3]ꢀꢀ
(2)
[0027]其中,Concat代表对F
i
(i=1,2,3)进行通道维度的拼接。经过Sigmoid激活层得到时空特征注意力图即
[0028]M=σ(F
c
)
ꢀꢀꢀꢀ
(3)
[0029]其中σ表示Sigmoid激活函数。最后的输出Y可表示为
[0030][0031]进一步的,步骤2.3具体如下:首先对该模块的输入进行空间维度的平均池化,得到
[0032][0033]通过全连接层FC对F的通道数进行压缩,表示为
[0034]F
r
=g1(F)
ꢀꢀꢀꢀ
(6)
[0035]其中g1代表用于通道压缩的FC层。随后对其进行通道维度的全局池化,将时间节点上的通道特征编码为全局特征,得到表示为
[0036][0037]对不同时间节点之间的非线性关系进行学习,最终得到时间维度的权重矩阵图
[0038][0039]g2代表两个FC层,第一个FC层用于降维操作,第二个FC层是对时间维度的解压缩;σ代表Sigmoid激活层的操作;
[0040]中间层的特征图以及最终的输出可表示为
[0041][0042][0043]进一步的,步骤3具体如下:首先对背景减除流的输出帧间差分流的输出进行堆叠,表示为
[0044]F=Stack(X
bs
,X
diff
)
ꢀꢀꢀꢀ
(11)
[0045]其中,...

【技术保护点】

【技术特征摘要】
1.一种监控场景下的轻量化暴力行为识别方法,其特征在于包括以下步骤:步骤1,获取监控场景下的视频数据,对视频数据进行预处理和数据增强;步骤2,将步骤1处理得到的数据作为输入,进行数据时空特征的提取;步骤3,对双流特征进行特征融合;步骤4,通过全连接层构成的分类器,进行暴力/非暴力行为的类别判决。2.如权利要求1所述的监控场景下的轻量化暴力行为识别方法,其特征在于:步骤1具体如下:利用视频采集工具获取监控场景下的视频数据后,通过OpenCV工具来获取视频帧序列,并通过numpy库将其转换成易于处理的数据格式,随后使用均匀采样的方式,对视频序列进行采样去除视频序列中的冗余信息;并进行图像水平/垂直翻转、旋转、颜色扰动、光线扰动操作;随后,分别对经上述处理的视频帧序列做帧间差分操作和背景减除操作,分别作为双流网络帧间差分支流和背景减除支流的输入。3.如权利要求1所述的监控场景下的轻量化暴力行为识别方法,其特征在于:步骤2具体如下:步骤2.1,通过多个不同卷积核大小的卷积算子来构建多尺度时空激励模块,以此获取多尺度时空特征,并通过正则约束来提高模型抗过拟合能力;步骤2.2,将经过步骤2.1处理后的数据作为经过裁剪的轻量化2D CNN的输入做进一步的空间特征提取工作;步骤2.3,以步骤2.2处理后的数据作为施加正则约束的时间激励模块的输入,显式地建模时间维度的相互依赖关系,并通过正则约束来提高模型抗过拟合能力。4.如权利要求3所述的监控场景下的轻量化暴力行为识别方法,其特征在于:步骤2.1具体如下:输入B、T、H、W表示批大小、时间、单个视频帧图片的高度、单个视频帧图片的宽度,通道维度为3,在通道维度取平均以得到包含全局通道信息的时空特征图特征图“:”表示这个维度上...

【专利技术属性】
技术研发人员:张成张旭光谢强伟方银锋
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1