一种用于智能监控系统的弱监督异常行为智能检测方法技术方案

技术编号：40638461 阅读：7 留言：0更新日期：2024-03-13 21:21

本发明专利技术公开了一种用于智能监控系统的弱监督异常行为智能检测方法，涉及异常行为检测技术领域，本发明专利技术结合弱监督伪标签生成和跨模态交互的思想设计网络结构，以解决弱监督下精细的片段标签缺失的问题，提高网络对弱监督异常行为识别的准确性，其损失函数兼顾帧级识别和视频级识别的需求，且对噪声鲁棒，可以应用到智能监控设备异常行为检测的任务中。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及异常行为检测，特别是涉及一种用于智能监控系统的弱监督异常行为智能检测方法。

技术介绍

1、现代社会，监控设备遍布各个角落，尤其是学校、医院、商场等重点治安区域。目前监控设备的主要功能是记录当前区域发生的事情，以便后续查验作为证据，设备的利用率较低。充分利用这些设备收集的大量数据，拓展监控功能以实现智能异常监控是一个非常有前景的研究方向。随着深度学习的不断发展，异常检测技术不断成熟，加之监控设备硬件技术的提升，这些为监控设备的功能拓展提供了必要条件，使能够进行异常检测的智能监控设备成为可能。

2、随着监控设备硬件技术的发展，如今大部分的监控设备能实现视觉和听觉数据采集。随之兴起的异常检测技术集中在融合视频与音频信息等多模态融合的检测技术。多模态旨在建立一种能够处理具有相关性的多种模态信息的模型。多模态学习被证明可以聚合多源数据的信息，使模型学习到更加完备的信息，从而避免单一模态在异常检测中的局限性。此外，作为人类，我们的判断也是依赖于多模态的信息而不是单模态的信息，例如车祸中，听觉的巨大碰撞声和视觉的火焰、烟雾等都可以成为我们判别的依据。所以多模态的异常检测更贴近人类的判断，更适用于人机交互。

3、多模态深度学习领域的技术难点主要来源于其数据的异构性。就音视频融合的异常识别分支而言，首先，视频数据通过连续帧图片表示，而音频数据则是通过音频信号表示；其次，如何音频数据与视频数据之间在实例级别上的对应关系；最后，如何建立音频数据和视频数据的融合模型以获取单一模态不足的补充信息。

4、弱

5、因此，基于多模态的弱监督异常检测发展前景广阔，且是一个具有挑战性的任务，现有异常行为检测方法在精确性和适用性等方面任有待改进。现有技术存在对多模态融合不充分、弱监督下忽视片段级别的识别、模型鲁棒性低等问题。

技术实现思路

1、本专利技术所要解决的技术问题是克服现有技术的不足而提供一种用于智能监控系统的弱监督异常行为智能检测方法，本专利技术基于视频与音频两个模态的信息进行异常识别，满足智能监控的实际场景需求。

2、本专利技术为解决上述技术问题采用以下技术方案：

3、根据本专利技术提出的一种用于智能监控系统的弱监督异常行为智能检测方法，包括以下步骤：

4、步骤1、提取视频模态的特征、提取音频模态的特征；

5、步骤2、采用自注意力网络分别对视频模态的特征和音频模态的特征进行自注意力增强；

6、步骤3、将步骤2得到的自注意力增强后的特征输入多层感知器中提取高级语义特征，得到视频与音频模态高级语义特征；

7、步骤4、激活函数归一化视频与音频模态高级语义特征均值，获得片段级别的异常行为伪标签；

8、步骤5、分别将步骤3中获得的视频与音频模态高级语义特征归一化得到背景抑制的门控信息，以视频模态的门控信息增强步骤2中获得的音频模态的特征，得到背景增强后的音频模态的特征，以音频模态的门控信息增强步骤2中获得的视频模态的特征，得到背景增强后的视频模态的特征；

9、步骤6、将步骤5中背景增强后的音频模态的特征与视频模态的特征进行跨模态注意力增强，获得音频模态与视频模态融合的特征，并利用多层感知器得到最终的多模态异常行为概率值；

10、步骤7、将步骤4获得的片段级别的异常行为伪标签作为噪声标签，与步骤6获得的多模态异常行为概率值进行损失值计算；

11、步骤8、以多实例学习方式计算步骤6中多模态异常行为概率值与视频级标签的损失值；

12、步骤9、将步骤7与步骤8的损失值求加权和作为损失值，步骤2至步骤6为弱监督下多模态异常行为检测网络模型，对弱监督下多模态异常行为检测网络模型进行训练。

13、作为本专利技术所述的一种用于智能监控系统的弱监督异常行为智能检测方法进一步优化方案，步骤2具体如下：

14、将从视频模态的特征和音频模态的特征分别传入自注意力网络进行自注意力增强，自注意力网络通过将查询、键、值映射为向量，计算点积矩阵并进行softmax归一化，最终得到加权求和的值向量，计算公式如下：

15、

16、其中，，表示查询向量矩阵，表示经步骤1得到的音频/视频模态的特征，，表示键向量矩阵，，表示值向量矩阵，、、分别表示查询向量矩阵、键向量矩阵、值向量矩阵中可学习的参数矩阵；表示查询向量矩阵和键向量矩阵之间的点积矩阵，上标表示矩阵转置，表示键向量矩阵的维度，用于归一化点积避免点积的值过大或过小；表示softmax激活函数用于将得分归一化为概率值。

17、作为本专利技术所述的一种用于智能监控系统的弱监督异常行为智能检测方法进一步优化方案，步骤3中，多层感知器包括三层全连接层，具体如下：

18、

19、其中，、、分别表示三个全连接层的可学习参数矩阵，、、分别表示三个全连接层的偏置项，为视频/音频模态高级语义特征。

20、作为本专利技术所述的一种用于智能监控系统的弱监督异常行为智能检测方法进一步优化方案，步骤4中，激活函数归一化视频与音频模态高级语义特征均值，得到片段级别异常行为伪标签，具体计算方法如下：

21、对步骤3获得的视频与音频模态高级语义特征求均值，并由激活函数归一化为最终的异常评分，将异常评分作为片段级别的异常行为伪标签，计算过程如下：

22、

23、其中，表示片段级别的异常行为伪标签，表示激活函数sigmoid，表示视频模态的高级语义特征，表示音频模态的高级语义特征。

24、作为本专利技术所述的一种用于智能监控系统的弱监督异常行为智能检测方法进一步优化方案，步骤5中，将视频与音频模态高级语义特征归一化得到背景抑制的门控信息，计算方式如下：

25、

26、

27、其中，表示视频模态的门控信息，表示音频模态的门控信息，、分别表示视频、音频模态中每个片段的重要性，，d表示片段数量，表示门控信息的矩阵维度；

28、背景抑制增强后的特征，计算方式如下：

29、

30、

31、其中，表示加权比例参数，表示背景增强后的视频特征，表示背景增强后的音频特征，表示自注意力增强后的视频模态的特征，表示自注意力增强后的音频模态的特征。

32、作为本专利技术所述的一种用于智能监控系统的弱监督异常行为智能检测方法进一步优化方案，步骤6中，音频与视频模态融合的特征包括视频模态流的特征和音频模态流的特征，视频模态流和音频模态流的特征表示为如下公式：

33、

34、

35、

3本文档来自技高网...

【技术保护点】

1.一种用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，步骤2具体如下：

3.根据权利要求2所述的一种用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，步骤3中，多层感知器包括三层全连接层，具体如下：

4.根据权利要求2所述的一种用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，步骤4中，激活函数归一化视频与音频模态高级语义特征均值，得到片段级别异常行为伪标签，具体计算方法如下：

5.根据权利要求4所述的一种用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，步骤5中，将视频与音频模态高级语义特征归一化得到背景抑制的门控信息，计算方式如下：

6.根据权利要求5所述的一种用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，步骤6中，音频与视频模态融合的特征包括视频模态流的特征和音频模态流的特征，视频模态流和音频模态流的特征表示为如下公式：

7.根据权利要求3所述的一种用于智

8.根据权利要求1所述的用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，步骤9中，将步骤7与步骤8的损失值求加权和作为损失值的计算过程如下：

9.根据权利要求1所述的用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，步骤1中，采用预训练I3D网络提取视频模态的特征，采用预训练VGGish网络提取音频模态的特征。

...

【技术特征摘要】

1.一种用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，步骤2具体如下：

3.根据权利要求2所述的一种用于智能监控系统的弱监督异常行为智能检测方法，其特征在于，步骤3中，多层感知器包括三层全连接层，具体如下：

6.根据权利要求5所...

【专利技术属性】
技术研发人员：徐小龙，王珺，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人