本发明专利技术属于计算机视觉技术领域,公开了一种基于残差注意力模块和自选择学习结合的视频异常检测方法,包括采集原始视频并提取前后若干帧对象构建时空立方体;随机打乱时空立方体的空间或时间顺序,分别构造空间和时间拼图立方体;利用两种拼图立方体训练由两个预测分支组成的顺序预测模型,两个预测分支由残差注意力模块构建;利用自选择学习策略分别对两个预测分支的训练样本损失进行自选择学习,选中的样本损失参与梯度反向传播过程,多轮迭代训练得到一个完整的视频异常检测网络模型;对待测视频同样进行对象提取操作,不打乱顺序,直接输入到模型中计算预测得分,最终实现视频异常检测。本发明专利技术能使无监督视频异常检测的精度得到显著提高。得到显著提高。得到显著提高。
【技术实现步骤摘要】
基于残差注意力块和自选择学习结合的视频异常检测方法
[0001]本专利技术属于计算机视觉
,具体的说是涉及一种基于残差注意力块和自选择学习结合的视频异常检测方法。
技术介绍
[0002]视频异常检测是计算机视觉领域一个活跃且有挑战性的任务,其目的是准确检测出视频图像中出现异常事件的视频帧,例如交通事故、火灾或打斗等异常事件,对于保障公共安全具有重要意义。但是异常事件发生的概率很低并且种类众多,因此无法利用传统完全有监督的方式对每一个训练样本进行标注学习。
[0003]根据监督方式的不同,目前主流的视频异常检测方法主要分为三大类:半监督视频异常检测、弱监督视频异常检测和无监督视频异常检测。
[0004]在半监督视频异常检测的方法中,训练集只包含正常事件,模型学习和捕捉正常事件包含的正常特征,因此当模型检测到异常事件时,由于异常事件未参与模型训练,会产生更大的检测偏差,从而实现对异常事件的检测,如HF方法(Liu, Z., Nie, Y., Long, C., Zhang, Q., Li, G. 一种基于记忆增强光流重建和光流引导视频帧预测的混合视频异常检测检测框架. 国际计算机视觉大会, 2021)。在弱监督视频异常检测的方法中,训练集既包含正常事件也包含异常事件,但是只有视频级的标签,其代表视频内容中是否包含异常事件。借助视频级的标签,弱监督视频异常检测可以大幅提高检测的精度,如MIST方法(Feng, J.
‑
C.; Hong, F.
‑
T.; and Zheng, W.
‑
S. 用于视频异常检测的多实例自训练框架. 国际计算机视觉与模式识别会议, 2021)。但是半监督和弱监督的视频异常检测方法,都需要对训练集进行人工筛选以满足模型的要求,面对海量的视频数据,需要大量的人工和时间成本。因此不需要任何标签信息的无监督视频异常检测的方法越来越受到关注,其训练集既包含正常事件也包含异常事件,但是由于不存在人工过程,可以实现视频异常检测的完全自动化,但是这也是一个更有挑战性的任务。如GCL方法(Zaheer M Z, Mahmood A, Khan M H, et al. 用于无监督视频异常检测的生成式协同学习. 国际计算机视觉与模式识别会议, 2022.),但是现有的无监督方法模型泛化能力过强,异常事件不容易被检测出来,因此准确度不高。
技术实现思路
[0005]为了解决上述问题,本专利技术提供了一种基于全新残差注意力模块和自选择学习结合的视频异常检测方法,该方法使用所构建的全新残差注意力模块作为基础模块搭建预测分支网络,然后对训练样本进行自选择学习使模型聚焦于建模正常特征。
[0006]为了达到上述目的,本专利技术是通过以下技术方案实现:
[0007]本专利技术是一种基于残差注意力块和自选择学习结合的视频异常检测方法,该视频异常检测方法具体包括如下步骤:
[0008]S1:收集原始视频数据,利用对象检测器,提取前后若干视频帧的对象构建时间
‑
空间立方体(时空立方体);
[0009]S2:随机打乱S1中时空立方体的空间或时间顺序,分别构建空间拼图立方体和时间拼图立方体;
[0010]S3:利用S2中的空间拼图立方体和时间拼图立方体训练由两个预测分支构成的顺序预测模型:空间预测分支和时间预测分支,其中两个预测分支均使用交叉熵损失指导训练过程;
[0011]S4:对模型先进行5轮的热启动训练,即两个预测分支的交叉熵损失跳过自选择学习阶段,直接执行S6中的梯度反向传播步骤;
[0012]S5:在S4中的热启动训练之后,其后的每一轮训练过程中,对于一个批次的训练样本损失,利用自选择学习策略分别对S3中两个分支的交叉熵损失进行自选择学习,剔除可疑的异常样本损失;
[0013]S6:所述S5步骤后剩余的样本损失参与梯度反向传播过程,更新网络参数,经过多轮迭代训练,得到最终的顺序预测模型;
[0014]S7:对待测视频进行所述S1中的对象提取操作,获得待测时空立方体;
[0015]S8:对于所述S7步骤获得的待测时空立方体,不打乱其空间和时间顺序,直接输入到S6训练得到的最终顺序预测模型中,通过比较,取模型所预测顺序得分的最小值,获得待测时空立方体的空间和时间预测得分;
[0016]S9:对所述S8中的两个预测得分进行整合,获得待测时空立方体最终的对象预测得分,对一帧待测视频图像中多个对象预测得分进行比较,取最小的对象得分作为最终的视频帧异常分数,对所有视频帧异常分数进行比较,异常分数偏低的视频帧判定为异常视频帧,从而实现视频异常检测。
[0017]其中,所述S1中对象提取操作的过程具体为:
[0018]S1
‑
1:对于每一个视频帧,利用已训练好的YOLOv3对象检测器检测一帧图像中的对象,根据检测的置信度,只保留置信度较高的对象,并获得包含检测对象位置信息的锚框;
[0019]S1
‑
2:以当前帧为中心,根据S1
‑
1步骤中提取到的锚框,在时间连续的若干视频帧上提取相同位置的图像块;
[0020]S1
‑
3:将提取的图像块以时间顺序堆叠,构成时间
‑
空间立方体(时空立方体),其代表当前视频帧的一个基本的对象事件;
[0021]其中,所述S2中拼图立方体的构建过程具体为:
[0022]S2
‑
1:对于一个时空立方体,在保持其时间顺序的同时,将对像块划分为若干个对象小块,打乱对象小块的顺序,构成空间拼图立方体;
[0023]S2
‑
2:对于一个时空立方体,在保持其空间顺序的同时,对其时间顺序进行打乱,构成时间拼图立方体;
[0024]本专利技术的进一步改进在于:所述S3中顺序预测模型的空间预测分支和时间预测分支分别预测被打乱的空间顺序和时间顺序,两个预测分支具有相同的结构,均由连续多个全新残差注意力模块构建而成,其主要由残差模块、注意力模块和跳跃连接三部分组成。所述残差模块由2个3D卷积层、2个3D实例归一化层和1个ReLu激活函数构成;所述注意力模块包括1个全局池化层、2个全连接层、1个ReLu激活函数和1个Sigmoid激活函数;所述跳跃连
接直接将输入残差注意力模块的特征图与卷积后的特征图相加,形成输出特征图,如果输出特征图尺寸发生变化,跳跃连接会使用步长为2的1*1卷积对输入特征图尺寸进行调整。
[0025]其中,所述S3中指导模型两个分支的训练的交叉熵损失函数具体为:
[0026],
[0027]其中,和分别为空间拼图立方体的对象小块数量和时间拼图立方体的时间长度, 是计算交叉熵损失操作符,和分别为打乱后的空间顺序和模型预测的空间顺序,和分别为打乱后的时间顺序和模型预测的时间顺序。
[0028]本专利技术的进一步改进在于:所述S5中自选择学习策略的具体步骤如下本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:所述视频异常检测方法包括如下步骤:步骤1:收集原始视频数据,利用对象检测器,提取前后若干视频帧的对象构建时间
‑
空间立方体即时空立方体;步骤2:随机打乱步骤1中时空立方体的空间或时间顺序,分别构建空间拼图立方体和时间拼图立方体;步骤3:利用步骤2中的空间拼图立方体和时间拼图立方体训练由两个预测分支构成的顺序预测模型:空间预测分支和时间预测分支,其中所述空间预测分支和所述时间预测分支均使用交叉熵损失指导训练过程;步骤4:对模型先进行5轮的热启动训练,即空间预测分支和时间预测分支的交叉熵损失跳过自选择学习阶段,直接执行步骤6的梯度反向传播步骤;步骤5:在步骤4中的热启动训练之后,其后的每一轮训练过程中,对于一个批次的训练样本损失,利用自选择学习策略分别对步骤3中两个分支的交叉熵损失进行自选择学习,剔除可疑的异常样本损失;步骤6:所述步骤5后剩余的样本损失参与梯度反向传播过程,更新网络参数,经过多轮迭代训练,得到最终的顺序预测模型;步骤7:对待测视频进行步骤1中的对象提取操作,获得待测时空立方体;步骤8:对于步骤7获得的待测时空立方体,不打乱其空间顺序和时间顺序,直接输入到步骤6训练得到的最终顺序预测模型中,通过比较,取模型所预测顺序得分的最小值,获得待测时空立方体的空间和时间预测得分;步骤9:对步骤8中的两个预测得分进行整合,获得待测时空立方体最终的对象预测得分,对一帧待测视频图像中多个对象预测得分进行比较,取最小的对象得分作为最终的视频帧异常分数,对所有视频帧异常分数进行比较,异常分数偏低的视频帧判定为异常视频帧,从而实现视频异常检测。2.根据权利要求1所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:步骤3中,顺序预测模型的所述空间预测分支和所述时间预测分支分别预测被打乱的空间顺序和时间顺序,所述空间预测分支和所述时间预测分支具有相同的结构,均由连续多个全新残差注意力模块构建而成。3.根据权利要求2所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:所述全新残差注意力模块由残差模块、注意力模块和跳跃连接三部分组成,所述残差模块由2个3D卷积层、2个3D实例归一化层和1个ReLu激活函数构成,所述注意力模块包括1个全局池化层、2个全连接层、1个ReLu激活函数和1个Sigmoid激活函数,所述跳跃连接直接将输入残差注意力模块的特征图与卷积后的特征图相加,形成输出特征图。4.根据权利要求1或3所述的基于残差注意力块和自选择学习结合的视频异常检测方法,其特征在于:步骤3中所述空间预测分支和所述时间预测分支训练过程中使用的交叉熵损失函数具体为:
;其中,和...
【专利技术属性】
技术研发人员:李群,潘许贝,肖甫,盛碧云,沙乐天,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。