基于跨媒体的室外重点场所人群异常行为预警系统和方法技术方案

技术编号:35354188 阅读:19 留言:0更新日期:2022-10-26 12:27
本发明专利技术涉及一种基于跨媒体的室外重点场所人群异常行为预警系统和方法。本发明专利技术采用跨媒体即音视频媒体,提取固定片段内的音频烈度信息、视频人群聚集信息以及肢体动作信息,实现室外重点场所人群异常行为预警方法。该方法除避免了现有方法无法区别音频是否为人声以及人声烈度、无法在室外监控场景下自适应计算人员聚集度以及无法快速识别聚集人员是否变化,采用跨媒体融合方法提高了复杂环境室外下重点场所人群异常行为识别能力,大幅降低误识率。率。率。

【技术实现步骤摘要】
基于跨媒体的室外重点场所人群异常行为预警系统和方法


[0001]本专利技术属于音视频处理领域,具体涉及一种基于跨媒体的室外重点场所人群异常行为预警系统和方法。

技术介绍

[0002]当前视频监控以及远程喊话系统已被广泛的用于公共场所实现治安辅助,提升社会治安管理能力。视频监控系统实时将监控现场信息传回监控中心,视频存储系统将视频场景数据录制并存储,在需要的时候监控中心管理人员可以根据需要将现场实时视频显示在监控屏幕上。目前城市中安装了大量监控摄像机,管理人员无法实时查看所有监控场景下所发生的事情,仅在接到报警的情况下将监控屏接入现场视频,或通过回看监控历史数据,辅助事件的解决处理。然而,对于酒吧、KTV等重点场所以及周边,出现的人群以青年人为主,而青年人群本身性格上容易冲动,在酒精等物质刺激下,几句无关紧要的言语或轻微的肢体接触,就可能导致双方产生纠纷,进而导致激烈肢体冲突,造成社会治安事件的严重后果。因此如何充分发挥当前已经部署监控视频网络,加强对重点场所人群异常行为监视能力,及时发现异常行为,在事态没有进一步恶化之前干预,遏制治安事件发生。这对提高社会治安管理水平,建设和谐社会有重要意义。
[0003]重点场所中活动人群之间陌生人较多,所产生的异常事件具有很高的偶发性。事件发生普遍具有从小纠纷到相互争吵,最终肢体冲突的逐步发展过程。在这个过程中,一般会出现人群聚集、激烈争吵、肢体接触等异样状态,面对这些异常情况如何利用视频监控网络,发现并通知治安人员在前期介入如在人群聚集、激烈争吵或肢体接触阶段,进行预警与干预。然而,重点场所如街道、菜场等,行人熙熙攘攘、车来车往、人声鼎沸等,环境十分嘈杂,如何从监控系统所拍摄音视频信息中,及时检测出异常状况是一个具体挑战性的问题。
[0004]现有的人群异常行为识别方法主要基于视频图像分析技术,通过提取视频中人群密度、人数、动作等信息,然后采用规则或机器学习算法判断是否存在异常。这些方法仅利用视觉信息,基于人群密度、人数等信息进行判断,面对街道、校门口等人群密集场所,误报率很高,完全无法在实际中应用。因此,要实现重点场所人群异常行为进行检测和识别,仅依赖单一视觉媒体信息进行分析,无法满足实际治安预警应用需求。

技术实现思路

[0005]当前针对人群的异常检测主要基于视频图像人群聚集等特点来实现,这些方法在面对街道、菜场、集市等复杂场景中,使用人群聚集等方法无法识别出场景中是否出现异常,而这些公共场所是日常治安事件高发场所。
[0006]本专利技术提供一种基于跨媒体的室外重点场所人群异常行为预警系统和方法,通过基于音频和视频两种媒体的检测和识别算法实现预警功能,目标是在初始阶段准确发现人群异常,并通过自动语音喊话功能实时干预,实现早期介入处理,防止事态发展造成严重后果。通过提取音频和视频两种媒体融合信息,采用人工智能预测算法,实现复杂场景下的人
群异常行为的预警功能。
[0007]为了达到上述目标,本专利技术采用了如下技术方案:
[0008]本专利技术的一方面提供了一种基于跨媒体的室外重点场所人群异常行为预警方法,该方法包括以下步骤:
[0009]S1.配置云台摄像机,摄像机按照预设值的点位,定时巡检各预置点位;
[0010]S2.配置定向拾音器,拾音器拾音方向跟随摄像机转动,实现定向音频数据采集;
[0011]S3.定时间长度采集预置点位视角范围内的音视频数据混合数据流;
[0012]S4.服务器接收音视频数据并分离,获得视频流和音频流数据;
[0013]S5.提取视频流的关键帧,对预设区域进行人体和头部目标检测;
[0014]S6.对检测出的人体和头部分别采用自适应聚集密度评估算法得到监控区域范围内的最高人群密度值;
[0015]S7.采用背景声音去除算法对音频数据进行预处理;
[0016]S8.将固定时间长度的音频数据分割为指定采集频率的音频片段数据;
[0017]S9.将音频片段数据通过深度学习的卷积神经网络模型进行分类,确定该音频片段数据是否为人的说话音频;
[0018]S10.根据固定时间长度内的所有音频片段数据的音频分类结果,通过人声的比率是否超过设定阈值,确定本段音频是否为人的说话音频;
[0019]假如不是人的说话声则确定为背景音,采用原始音频计算背景音频声音强度等级;
[0020]S11.针对判断为人说话的音频,采用声音强度计算算法,对整段音频采用设定频率计算片内的声音强度,得到整个固定时间长度内音频强度值列表;
[0021]S12.将音频强度值列表输入音频烈度判别模型,得到人声烈度等级;
[0022]S13.根据背景音频声音强度等级,自动调整人群密度阈值;
[0023]S14.将自动调整后的人群密度阈值与S6中得到最高人群密度值进行比较,如果S6中得到最高人群密度值大于等于人群密度阈值,则对最高人群密度区域采用人员变动识别算法,判断这个时段内,该区域的大多数人员是否有变化;
[0024]S15.融合S12得到人声烈度等级、S6中得到最高人群密度值以及S14人员变化判断结果,判断在摄像机监控区域内是否出现争吵,实现跨媒体音视频流的处理能力;
[0025]S16.根据S15的结果,判断是否满足预警要求,假如需要预警,输出预警类型并启动远程喊话,提前干预现场;
[0026]S17.重复S3~S16上述步骤完成室外重点场所人群异常行为的实时预警。
[0027]本专利技术的另一方面提供了一种基于跨媒体的室外重点场所人群异常行为预警系统,该系统包括:
[0028]视频数据采集模块,由带有云台摄像机按照预设值的点位,定时巡检各预置点位采集监控区域范围内的视频数据;
[0029]音频采集模块,拾音器跟随摄像机转动,定向采集音频数据;
[0030]音视频数据合成模块,通过将音视频数据按时间同步合成音视频流,实现网络传输;
[0031]音视频数据分离模块,服务器接收网络传输的音视频数据并分离,获得视频流和
音频流数据;
[0032]人体和头部目标检测模块,对视频流解码后获得的帧图像,在预设区域范围内检测所有人体和头部的位置坐标;
[0033]自适应人群聚集密度估算模块,根据场景中人群的远近采用与距离相关的自适应聚集密度算法估算人群密度;
[0034]背景声音去除模块,对接收的音频数据,采用背景声音去除算法,去除背景声音;
[0035]音频分割模块,将固定时间长度的音频分割为指定采集频率的音频片段数据;
[0036]人声片段识别模块,对音频片段数据采用深度学习的卷积神经网络模型判断是否为人声;
[0037]人声整段识别模块,根据固定时间长度内的所有音频片段数据的音频分类结果,通过人声的比率是否超过设定阈值,确定本段音频是否为人的说话音频;假如不是人的说话声则确定为背景音,采用原始音频计算背景音频声音强度等级;
[0038]音本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于跨媒体的室外重点场所人群异常行为预警方法,其特征在于该方法包括以下步骤:S1.配置云台摄像机,摄像机按照预设值的点位,定时巡检各预置点位;S2.配置定向拾音器,拾音器拾音方向跟随摄像机转动,实现定向音频数据采集;S3.定时间长度采集预置点位视角范围内的音视频数据混合数据流;S4.服务器接收音视频数据并分离,获得视频流和音频流数据;S5.提取视频流的关键帧,对预设区域进行人体和头部目标检测;S6.对检测出的人体和头部分别采用自适应聚集密度评估算法得到监控区域范围内的最高人群密度值;S7.采用背景声音去除算法对音频数据进行预处理;S8.将固定时间长度的音频数据分割为指定采集频率的片段数据;S9.将音频片段数据通过深度学习的卷积神经网络模型进行分类,确定该音频片段数据是否为人的说话音频;S10.根据固定时间长度内的所有音频片段数据的音频分类结果进行判断,通过人声的比率是否超过设定阈值,确定本段音频是否为人的说话音频;假如不是人的说话声则确定为背景音,采用原始音频计算背景音频声音强度等级;S11.针对判断为人说话的音频,采用声音强度计算算法,对整段音频采用设定频率计算片内的声音强度,得到整个固定时间长度内音频强度值列表;S12.将音频强度值列表输入音频烈度判别模型,得到人声烈度等级;S13.根据背景音频声音强度等级,自动调整人群密度阈值;S14.将自动调整后的人群密度阈值与S6中得到最高人群密度值进行比较,如果S6中得到最高人群密度值大于等于人群密度阈值,则对最高人群密度区域采用人员变动识别算法,判断这个时段内,该区域的大多数人员是否有变化;S15.融合S12得到人声烈度等级、S6中得到最高人群密度值以及S14人员变化判断结果,判断在摄像机监控区域内是否出现争吵,实现跨媒体音视频流的处理能力;S16.根据S15的结果,判断是否满足预警要求,假如需要预警,输出预警类型并启动远程喊话,提前干预现场;S17.重复S3~S16上述步骤完成室外重点场所人群异常行为的实时预警。2.根据权利要求1所述的基于跨媒体的室外重点场所人群异常行为预警方法,其特征在于:S5中采用基于深度学习端到端的目标检测模型,对目标检测模型利用FP16半精度计算方法以及Tensor RT加速技术实现在图像的预设区域中快速检测人体和头部区域,并输出矩形区域坐标。3.根据权利要求2所述的基于跨媒体的室外重点场所人群异常行为预警方法,其特征在于:根据人体或头部矩形区域坐标,将多个人的肩宽或人头的X方向的像素进行平均,基于均值像素估计人员位置以及人员之间的距离;对检测区域内的人员距离进行归一化,然后利用公式(1)计算出场景中人群的最高密度值S
max
(h):
其中p
i
为第i个人的位置坐标,p
j
为第j个人的位置坐标,dist为欧式距离公式,N为人员个数,D为设定阈值。4.根据权利要求1所述的基于跨媒体的室外重点场所人群异常行为预警方法,其特征在于:S6中还包括:调节摄像机焦距以及云台,将摄像机拍摄区...

【专利技术属性】
技术研发人员:叶利华谢东福刘燕
申请(专利权)人:杭州海宴科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1