支持实时监控场景的多人时空域异常行为定位方法及系统技术方案

技术编号:34621316 阅读:58 留言:0更新日期:2022-08-20 09:28
本发明专利技术公开了一种支持实时监控场景的多人时空域异常行为定位方法及系统,方法包括步骤:利用采集设备捕获实时监控的视频帧;分别对缓存的视频帧进行多目标检测与跟踪以及基于2D运动建模的行为识别,得到人物目标框和行为置信度图;使用多主体行为匹配算法对每个人物目标框求出对应的行为置信度,并选择置信度最高的行为作为该人的行为;使用异常风险评估算法对行为本身包含的风险因素进行评分。系统包括模块:数据接收模块、数据持久化模块、异常行为检测模块和业务处理模块等。本发明专利技术的多人时空域异常行为定位方法及系统能够并行完成多目标检测与跟踪和行为识别过程,以高准确性、低时延地完成多人异常行为定位,极大地提高了异常检测效率。高了异常检测效率。高了异常检测效率。

【技术实现步骤摘要】
支持实时监控场景的多人时空域异常行为定位方法及系统


[0001]本专利技术涉及图像与视频处理
,尤其涉及一种支持实时监控场景的多人时空域异常行为定位方法及系统。

技术介绍

[0002]为保障社会公共安全秩序的稳定,我国提出了“智慧城市”、“平安城市”等概念,部署了大量的视频监控摄像头,构建城市智能监控管理系统。然而,随着城市人口的不断膨胀,以及城市规模的不断扩张,城市监控系统每天都会产出海量的监控视频,包括室内监控和室外监控。室外场景主要针对的对象是来往的人群,可用于防贼防盗或外部环境监视,如房子外、马路上等。也有很大一部分监控拍摄的是室内场景,包括公交车、办公室、商店、房子等,主要针对室内人员进行监控,在家用领域可对家中老人和小孩进行实时看护,在安防领域也能时刻监控被监管人员。
[0003]然而,目前对这些实时监控的监视方法仍然以人力检查为主,这种方式十分依赖监视者的经验,耗费了大量的人力和财力。监视者往往需要长时间地监视多个监控,易造成误检和漏检,检查效率十分低下。
[0004]近年来,随着人工智能的发展和进步,一种融合计算机视觉技术的智能监控系统流行起来,通过深度学习算法对监控视频进行行为识别,再与预先设定好的异常行为类别进行匹配,一旦识别出异常行为则立即向监管人员发起预警。这种算法辅助的方式可以在一定程度上缓解监管人员的压力,并防止发生漏检的情况,但现有的基于异常行为识别的系统往往只能识别出单人异常和群体异常,且无法确定异常发生的空间位置,在多人场景中难以适用。因此,如何在多人监控场景中实现智能的人员级异常行为检测成为安防监控领域的一大挑战。
[0005]时空动作定位技术可以有效地完成多人行为定位任务,它将行为识别和多目标检测与跟踪这两种领域的算法模型进行了有机的融合,可以判定视频中每个人出现的位置和对应的行为类别。
[0006]现有的时空动作定位算法主要分为双阶段算法和端到端算法这两种。双阶段的算法先预测出目标的候选框,然后再对框中的目标进行行为识别,这种方法由于检测和识别串行进行,实时性较差;端到端的算法使用多个分支同时进行检测和识别任务,虽然减少了计算量,但是算法对于运动信息的建模过于粗糙,导致准确性不如双阶段算法。综上,时空动作定位方法的准确性和实时性能均未达到可用的水平,在多人场景的人员异常行为检测中难以表现出良好的效果。

技术实现思路

[0007]本专利技术针对安防监控领域存在的无法有效进行多人行为定位、异常检测准确率低、系统实时性不足的问题,提出一种支持实时监控场景的多人时空域异常行为定位方法及系统,是针对安防领域应用,结合计算机视觉技术的创新方法及系统,利用行为识别技术
和多目标检测与跟踪技术,提供多人场景下的实时的人员定位跟踪和异常行为识别服务。
[0008]为了实现上述目的,本专利技术提供如下技术方案:
[0009]一方面,本专利技术提供的一种支持实时监控场景的多人时空域异常行为定位方法,包括以下步骤:
[0010]S1:利用采集设备捕获实时监控的视频帧;
[0011]S2:分别对缓存的视频帧进行多目标检测与跟踪以及基于2D运动建模的行为识别,得到人物目标框和行为置信度图;
[0012]S3:使用多主体行为匹配算法对每个人物目标框求出对应的行为置信度,并选择置信度最高的行为作为该人的行为;
[0013]S4:使用异常风险评估算法对行为本身包含的风险因素进行评分。
[0014]进一步地,步骤S2中多目标检测与跟踪算法分别选择YOLOv5和DeepSort,YOLOv5用于检测出最新视频帧中出现的所有人员的目标框,包括左上角横纵坐标和宽高,DeepSort用于对检测到的目标框进行人员轨迹关联,并赋以轨迹ID。
[0015]进一步地,基于2D运动建模的行为识别算法网络结构包括骨架网络、运动建模模块和预测模块,行为识别算法流程为:
[0016]S21:输入:K帧视频片段,每帧图像尺寸为3
×
H
×
W,分别表示通道数、高和宽;
[0017]S22:骨架网络:选用DLA

34网络分别对K帧图像提取基础特征,得到的特征图,其中C1为特征通道数,R为图像下采样比例;
[0018]S23:运动建模模块:将提取出的K帧特征图送入运动建模模块,该模块使用1
×
1的1D卷积先减小通道数以减少运动建模的计算量,再还原通道数保持前后一致,并以残差的形式补充运动建模信息,连续进行三次运动建模保证得到充分的运动信息;在每个运动建模单元中,先使用3
×
3的2D卷积对下一帧的特征进行移位修正,然后使用当前帧的特征与移位后的下一帧特征相减,最后将结果拼接起来,补充一个全0的特征图保持时间维度的一致性;
[0019]S24:预测模块:得到空间特征和运动特征后,算法通过预测模块对时空信息进行融合并预测行为置信度;预测模块首先调换特征图中的时间和通道维度,然后逐通道地进行3
×
3的2D卷积,每次卷积都会使用所有帧在3x3范围内的特征值进行运算,达到融合时空信息的效果,最终经过1
×
的卷积得到每个行为类别的置信度图;
[0020]S25:输出:的行为置信度图,其中C为行为类别数,H和W分别为视频帧的高和宽。
[0021]进一步地,K=9,H=244,W=244,C1=1024,R=4,C=30。
[0022]进一步地,步骤S3中针对每个人物目标框box=(x
left
,y
top
,w,h),多主体行为匹配算法的流程如下:
[0023]S31:行为识别算法输出的行为置信度热力图,经过双线性插值将该图转化为C
×
H
×
W尺寸的热力图,对于热力图上的点(x,y)而言,行为类别为c的概率为P
(c,xy)

[0024]S32:根据公式(2)计算目标框的二维高斯分布在整个热力图上的行为置信度F
(box,x,y),其中,然后,根据公式(3)对目标框内所有点对应的行为置信度进行归一化得到所有点的置信权重,对目标框内的点(x,y)而言,W(box,x,y)即该点的置信权重;
[0025][0026][0027]S33:根据公式(4),使用步骤S32生成的置信权重对目标框内所有点的置信度预测值进行加权计算,得到目标框对每个行为类别的综合置信度:
[0028][0029]S34:根据公式(5),选择置信度最大的行为作为目标框的预测行为:
[0030][0031]进一步地,步骤S31中双线性插值的方法为:根据近邻像素值将3
×
3的蓝色像素扩展为5
×
5的绿色像素,即给定四个近邻的蓝色像素值Q
11
、Q
12
、Q
21
、Q
22
,使用双线性插值算法求中间的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种支持实时监控场景的多人时空域异常行为定位方法,其特征在于,包括以下步骤:S1:利用采集设备捕获实时监控的视频帧;S2:分别对缓存的视频帧进行多目标检测与跟踪以及基于2D运动建模的行为识别,得到人物目标框和行为置信度图;S3:使用多主体行为匹配算法对每个人物目标框求出对应的行为置信度,并选择置信度最高的行为作为该人的行为;S4:使用异常风险评估算法对行为本身包含的风险因素进行评分。2.根据权利要求1所述的支持实时监控场景的多人时空域异常行为定位方法,其特征在于,步骤S2中多目标检测与跟踪算法分别选择YOLOv5和DeepSort,YOLOv5用于检测出最新视频帧中出现的所有人员的目标框,包括左上角横纵坐标和宽高,DeepSort用于对检测到的目标框进行人员轨迹关联,并赋以轨迹ID。3.根据权利要求1所述的支持实时监控场景的多人时空域异常行为定位方法,其特征在于,基于2D运动建模的行为识别算法网络结构包括骨架网络、运动建模模块和预测模块,行为识别算法流程为:S21:输入:K帧视频片段,每帧图像尺寸为3
×
H
×
W,分别表示通道数、高和宽;S22:骨架网络:选用DLA

34网络分别对K帧图像提取基础特征,得到的特征图,其中C1为特征通道数,R为图像下采样比例;S23:运动建模模块:将提取出的K帧特征图送入运动建模模块,该模块使用1
×
1的1D卷积先减小通道数以减少运动建模的计算量,再还原通道数保持前后一致,并以残差的形式补充运动建模信息,连续进行三次运动建模保证得到充分的运动信息;在每个运动建模单元中,先使用3
×
3的2D卷积对下一帧的特征进行移位修正,然后使用当前帧的特征与移位后的下一帧特征相减,最后将结果拼接起来,补充一个全0的特征图保持时间维度的一致性;S24:预测模块:得到空间特征和运动特征后,算法通过预测模块对时空信息进行融合并预测行为置信度;预测模块首先调换特征图中的时间和通道维度,然后逐通道地进行3
×
3的2D卷积,每次卷积都会使用所有帧在3x3范围内的特征值进行运算,达到融合时空信息的效果,最终经过1
×
1的卷积得到每个行为类别的置信度图;S25:输出:的行为置信度图,其中C为行为类别数,H和W分别为视频帧的高和宽。4.根据权利要求3所述的支持实时监控场景的多人时空域异常行为定位方法,其特征在于,K=9,H=244,W=244,C1=1024,R=4,C=30。5.根据权利要求1所述的支持实时监控场景的多人时空域异常行为定位方法,其特征在于,步骤S3中针对每个人物目标框box=(x
left
,y
top
,w,h),多主体行为匹配算法的流程如下:S31:行为识别算法输出的行为置信度热力图,经过双线性插值将该图转化为C
×
H
×
W尺寸的热力图,对于热力图上的点(x,y)而言,行为类别为c的概率为P
(c,xy)

S32:根据公式(2)计算目标框的二维高斯分布在整个热力图上的行为置信度F(box,x,y),其中,然后,根据公式(3)对目标框内所有点对应的行为置信度进行归一化得到所有点的置信权重,对目标框内的点(x,y)而言,W(box,x,y)即该点的置信权重;(x,y)而言,W(box,x,y)即该点的置信权重;S33:根据公式(4),使用步骤S32生成的置信权重对目标框内所有点的置信度预测值进行加权计算,得到目标框对每个行为类别的综合置信度:S34:根据公式(5...

【专利技术属性】
技术研发人员:闫丹凤蔡院强傅威陈梦实曾昊楠郭熙东赵岳
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1