基于聚类指导学习的视频异常检测方法技术

技术编号：40781166 阅读：7 留言：0更新日期：2024-03-25 20:25

本发明专利技术公开了基于聚类指导学习的视频异常检测方法，包括步骤如下：该方法在U‑Net框架基础上设计了一种高效且性能优秀的视频自动编码器，该编码器将卷积操作替换为基于Swin Transformer(ST)的自注意力操作以更好的捕捉图像帧信息，U‑Net自编码器结构将其中的跳越连接层结构删除，卷积结构替换为Swin Transformer模块，编码器部分增加Swin Transformer框架下的patch embed结构以减小计算量；利用I3D Block增强ST框架的学习能力与收敛速度。同时设计了一种双尺度深度聚类模块对图像帧的特征信息与空间结构信息进行压缩表示，很好的限制了编码器的泛化能力。此外，本发明专利技术的模型提供重构与预测两种异常检测方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，具体涉及基于聚类指导学习的视频异常检测方法。

技术介绍

1、随着我国经济发展，对日常生活安全的要求日益提高。目前视频监控系统仍属于传统的人工监控，通常在关键位置安装摄像机，通过传输设备将数据传到监控中心实时显示在监控屏幕上，监控人员通过观看监控屏幕对异常事件进行判断并对做出反应。该系统有以下局限性：首先，耗费人力，通常情况下需要监控人员轮流守候以保证监控可以全天候进行；其次，存在大量警告漏报，长期面对监控屏幕上的多个画面，监控人员很容易产生疲劳从而遗漏重要信息；最后，对异常事件没有预测作用，更多时候只能充当事后查询工具。计算机科技发展迅速，图像处理、机器视觉和模式识别等技术相应成熟起来，为突破传统视频监控系统的局限性提供了可能，也使监控视频中异常事件的主动监控成为了可能。在智能视频监控系统中，可以对异常事件进行实时的监控，当有异常事件或者潜在威胁事件发生时，例如，人行道出现横冲直撞的机动车、商场内出现奔跑的人群等，系统将自动通知安防人员做出反应，采取相应措施，减少意外事故带来的损失甚至避免意外事故的发生。这样可以极大地提高社会安全水平，提升公民安全感，降低安防人员的劳动强度，减少公共损失。监控视频中异常事件检测是智能视频监控系统的关键组成部分，研究异常事件检测技术，提升它的检测性能和时间效率，具有重要的研究意义和实际意义。

2、视频异常检测在多数情况下是一个具有挑战性的任务：首先视频的事件异常可分解为空间上的异常与时间上的异常，一些事件异常无法通过单一的空间或时间线索判定，例如滑板者与行人在

3、当前领域采用的方法大多基于深度学习方法，主流使用视频自动编码器对正常模式数据的时空特征进行建模。这些方法多数基于u-net架构，仅使用正常模式的数据训练自动编码器提取视频特征。当输入数据明显偏离正常模式时，解码器输出图像帧与原始图像帧之间将会存在较大的重建误差，从而实现对异常帧的检测。但深度网络的强大泛化能力使得自动编码器面对一些异常图像帧也能很好重建，因此如何抑制深度网络的泛化能力成为该领域研究中的重要难题。

技术实现思路

1、本专利技术的目的在于，提供基于聚类指导学习的视频异常检测方法gcl，该方法在u-net框架基础上设计了一种高效且性能优秀的视频自动编码器，该编码器将卷积操作替换为基于swin transformer模块的自注意力操作以更好的捕捉图像帧信息，利用i3d模块增强st框架的学习能力与收敛速度。同时设计了一种双尺度深度聚类模块对图像帧的特征信息与空间结构信息进行压缩表示，很好的限制了编码器的泛化能力。

2、为实现上述目的，基于聚类指导学习的视频异常检测方法，包括步骤如下：

3、搭建基本的u-net自编码器结构，将其中的跳越连接层结构删除，卷积结构替换为swin transformer模块，编码器部分增加swin transformer框架下的patch embed结构以减小计算量；

4、搭建i3d模块，确定所述i3d模块中每一个卷积核的大小以及输出通道数，将该模块与swin transformer模块以残差形式进行融合得到ist模块；随后应用3d卷积对所述ist模块输出的特征图进行空间下采样；

5、获取第n层编码的输出特征图xn；

6、将输出特征图xn拆分为t×h×w个c维特征向量其中1≤t≤t，1≤h≤h，1≤ω≤w，它们分别代表视频片段的时间，空间高度与空间宽度索引，对特征向量进行特征深度聚类；

7、利用聚类中心点得到输出的特征向量，将所述特征向量进行拼接生成特征图；

8、将特征图输入空间聚类模块，该空间聚类模块存在c簇聚类中心，每簇m个聚类点的集合特征图在通道方向上被切割为c个待聚类簇，每簇有t个h×w维的特征子图其中1≤c≤c，代表第c簇特征子图；

9、获取深度聚类的目标函数；

10、在重建阶段使用一个反卷积核进行时间上采样恢复原来的特征图；在预测阶段使用卷积核进行时间下采样得到预测的特征图。进一步地，所述ist模块采用gelu函数，以防止大量神经元死亡影响网络对特征的提取能力。

11、进一步地，获取第n层编码的输出特征图xn具体方式为：以表示第i层编码器阶段的i3d模块，表示第i层编码器阶段的swin transformer模块，xi表示第i层的输入特征图，pe(·)表示patch embed结构，downi(·)表示空间下采样结构，则编码器形式化表达如下：

12、

13、其中n为编码层的数量。

14、进一步地，对特征向量进行特征深度聚类，如下所示：

15、

16、其中clk表示第k，1≤k≤k个聚类中心，cl＝{cl1，...，clk}表示聚类中心点集合；α为可调超参数，该式计算所给特征向量到各聚类中心clk的软分配距离。

17、进一步地，利用聚类中心点得到输出的特征向量，如下：

18、

19、将输出的特征向量拼接得到特征图

20、

21、更进一步地，空间聚类模块在每个特征通道上对特征图的空间信息进行聚类方式为：

22、

23、其中γ为超参数。

24、更进一步地，深度聚类的目标函数为：

25、

26、其中，losscl聚类损失。

27、更进一步地，在重建阶段，解码器接收第n层编码器输出的特征对其进行时间上采样后输入解码层；完整的解码器流程表述如下：

28、

29、在预测阶段，采用三层3d卷积网络进行输出：

30、

31、更进一步地，采用l2范数作为重建损失以衡量输入x0与输出xrecon视频片段的差异：

32、

33、该重建损失与聚类损失的和作为最终损失函数：

34、loss＝lossrecon+losscl。

35、本专利技术采用方案，与现有技术相比，具有的优点有：使用swin transformer算法的编码器在复杂的监控场景下具有更好的性能，此外加入了i3d辅助训练的编码器训练速度更快，效率更高，基于聚类思想设计的类记忆体结构更便于训练，且记忆体参数内含于网络中，更方便进行数据迁移，对数据特征的压缩程度更高，放大了异常数据与正常数据特征的区分边界。

本文档来自技高网...

【技术保护点】

1.基于聚类指导学习的视频异常检测方法，其特征在于，包括步骤如下：

2.根据权利要求1所述基于聚类指导学习的视频异常检测方法，其特征在于，所述IST模块采用GELU函数。

3.根据权利要求1所述基于聚类指导学习的视频异常检测方法，其特征在于，获取第N层编码的输出特征图XN具体方式为：以表示第i层编码器阶段的I3D模块，表示第i层编码器阶段的Swin Transformer模块，Xi表示第i层的输入特征图，PE(·)表示patchembed结构，downi(·)表示空间下采样结构，则编码器形式化表达如下：

4.根据权利要求1所述基于聚类指导学习的视频异常检测方法，其特征在于，对特征向量进行特征深度聚类，如下所示：

5.根据权利要求1所述基于聚类指导学习的视频异常检测方法，其特征在于，利用聚类中心点得到输出的特征向量，如下：

6.根据权利要求1所述基于聚类指导学习的视频异常检测方法，其特征在于，空间聚类模块在每个特征通道上对特征图的空间信息进行聚类方式为：

7.根据权利要求1所述基于聚类指导学习的视频异常检测方法

8.根据权利要求1所述基于聚类指导学习的视频异常检测方法，其特征在于，在重建阶段，解码器接收第N层编码器输出的特征对其进行时间上采样后输入解码层；完整的解码器流程表述如下：

9.根据权利要求7所述基于聚类指导学习的视频异常检测方法，其特征在于，采用L2范数作为重建损失以衡量输入X0与输出Xrecon视频片段的差异：

...

【技术特征摘要】

1.基于聚类指导学习的视频异常检测方法，其特征在于，包括步骤如下：

2.根据权利要求1所述基于聚类指导学习的视频异常检测方法，其特征在于，所述ist模块采用gelu函数。

3.根据权利要求1所述基于聚类指导学习的视频异常检测方法，其特征在于，获取第n层编码的输出特征图xn具体方式为：以表示第i层编码器阶段的i3d模块，表示第i层编码器阶段的swin transformer模块，xi表示第i层的输入特征图，pe(·)表示patchembed结构，downi(·)表示空间下采样结构，则编码器形式化表达如下：

4.根据权利要求1所述基于聚类指导学习的视频异常检测方法，其特征在于，对特征向量进行特征深度聚类，如下所示：

5.根据权利要求1...

【专利技术属性】
技术研发人员：邱少明，叶景丰，贺磊，
申请(专利权)人：大连大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人