一种基于扰动视觉解释的视频异常事件检测方法技术

技术编号:26033172 阅读:42 留言:0更新日期:2020-10-23 21:11
本发明专利技术属于计算机视觉和模式识别领域,具体涉及一种基于扰动视觉解释的视频异常事件检测方法,包括:获取视频数据集,将数据集输入到优化的深度学习模型中进行模型训练;实时获取视频数据,将获取的数据输入到训练好的深度学习模型中,得到检测结果以及解释图;本发明专利技术在构建深度学习模型中加入了可解释模型,通过可解释模型提取了输入视频中的重要像素以及重要区域,使得深度学习模型在处理视频数据过程中的更明确,增强了检测结果的可信度。

【技术实现步骤摘要】
一种基于扰动视觉解释的视频异常事件检测方法
本专利技术属于计算机视觉和模式识别领域,具体涉及一种基于扰动视觉解释的视频异常事件检测方法。
技术介绍
随着计算机科学技术的发展,利用图像处理、计算机视觉、机器学习等技术可以突破传统视频监控系统的局限性,实现对视频监控系统的视频智能分析和异常事件的主动检测和实时预警,对于公共安全领域的视频监控应用有重要价值。通过设定标签,计算机可以完成“正常事件”与“异常事件”的判别。视频的异常事件检测根据其对标签的选择可以分为三种类型:全监督、半监督、无监督。全监督模型为必须在检测前已知正常事件和异常事件的标签,通过建立二分类器完成检测划分。半监督模型为仅需已知正常事件的标签,训练正常事件的模型,而异常事件无法通过此模型生成。无监督模型为不需要知道任何标签,仅仅通过正常事件比异常事件更普通这一特性进行模型的迭代,并进行事件是否异常的判断。目前,已经有一些方法使用无监督步骤来检测视频中的异常事件。如Yong等人在2017发表了“Abnormaleventdetectioninvideosusingspatiotemporalautoencoder”,提出了时空自编码器的模型,该模型对正常模式进行训练,通过输入帧与重建帧之间的重构误差来判断是否异常。LinWang等人在2018年发表了“Abnormaleventdetectioninvideosusingspatio-temporalautoencoder”,探索了一种混合自编码器结构,它不仅能提取出更好的时空上下文,而且还能通过快捷连接提高相应解码器的推断能力。2019年CVPR会议上,Radu等人提出“Object-centricauto-encodersanddummyanomaliesforabnormaleventdetectioninvideo”,通过一个基于以对象为中心的卷积自动编码器的无监督特征学习框架来对运动和外观信息进行编码。但是目前使用无监督模型进行异常事件检测的算法中,由于采用CNNs的黑盒特性,使得模型缺乏解释性,导致了检测结果的可信度低,检测性能差。
技术实现思路
为解决以上现有技术的问题,本专利技术提出了一种基于扰动视觉解释的视频异常事件检测方法,包括:获取视频数据集,将数据集输入到优化的深度学习模型中进行模型训练;实时获取视频数据,将获取的数据输入到训练好的深度学习模型中,得到检测结果;所述模型训练的过程包括:将训练集的数据进行预处理,并将处理好的数据集输入到空间编码器中学习每个视频帧的空间结构;将空间编码器处理后的数据输入到时间自编码中学习空间结构的时间模式,得到特征图;采用删除解释和保留解释方法对特征图进行处理得到解释图;将特征图输入到解码器中进行反卷积操作,得到重建帧;根据输入帧和重建帧计算输入图像的规律性分数;将得到的规律性分数进行划分,得到视频异常与视频正常的分类,完成模型训练。优选的,所述深度学习模型包括编码器和解码器;所述编码器包括由三个卷积层组成空间编码器以及由三层卷积长短时记忆模型组成的时间自编码器;解码器为三层反卷积层组成的空间自编码器。优选的,所述长短时记忆模型为:ft=σ(WXF*Xt+WHF*ht-1+WCFoCt-1+bF)it=σ(WXI*Xt+WHI*ht-1+WCIoCt-1+bI)Ct=ftoCt-1+it·tanh(WXC*Xt+WHC*ht-1+bc)Ot=σ(WXO*Xt+WHO*ht-1+WCOoCt+bo)ht=Ototanh(Ct)优选的,得到解释图的过程包括:计算输入视频帧的掩码;将输入视频帧与计算得到的掩码相乘,得到解释图即对解释图进行优化处理。优选的,计算掩码的过程包括:输入特征图像x,通过移除与目标类CT相关或不相关的像素点得到掩码保留解释的掩码为:删除解释的掩码为:优选的,采用神经网络模型对解释图进行优化处理:所述对解释图进行优化处理包括在模型的所有非线性层之后增加约束,在进行约束后,采用调整公式对解释图进行调整,得到优化后的解释图;所述约束为:其中,表示对网络中第1层的第i神经元的非线性层进行激活后的激活函数;所述调整公式对解释图进行调整的过程包括:优选的,计算输入图像的规律性分数包括:计算输入视频序列中第t帧中的一个像素强度值I在位置(x,y)的重构误差e(x,y,t);根据重构误差计算视频序列中输入帧与重建帧的欧氏距离e(t);根据欧氏距离计算输入视频的异常分数Sa(t)与规律性分数Sr(t)。优选的,计算异常分数Sa(t)与规律性分数Sr(t)的公式包括:Sr(t)=1-Sa(t)本专利技术在构建深度学习模型中加入了可解释模型,通过可解释模型提取了输入视频中的重要像素以及重要区域,使得深度学习模型在处理视频数据过程中的更明确,增强了检测结果的可信度。附图说明图1为本专利技术的总体流程图;图2为本专利技术的构建深度学习模型的总体结构图;图3为本专利技术的视频数据中的异常检测流程图;图4为本专利技术的网络架构图。具体实施方式为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将结合附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。一种基于扰动视觉解释的视频异常事件检测方法,如图1所示,包括:获取视频数据集,将数据集输入到优化的深度学习模型中进行模型训练;实时获取视频数据,将获取的数据输入到训练好的深度学习模型中,得到检测结果以及解释图。如图4所示,本专利技术的深度学习模型包括编码器和解码器;所述编码器包括空间编码器和时间自编码器;解码器为空间自编码器。空间编码器由三个卷积层组成;第一层卷积层有128个滤波器,尺寸为11*11,步长为3;第二层卷积层有64个滤波器,尺寸为3*3,步长为2;第三层卷积层有32个滤波器,尺寸为5*5,步长为1。时间编码器为三层卷积长短时记忆模型;第一层ConvLSTM有64个滤波器,尺寸为5*5;第二层ConvLSTM有32个滤波器,尺寸为5*5;第三层ConvLSTM有64个滤波器,尺寸为5*5。空间自编码器由三层反卷积层构成;第一层反卷积层有64个滤波器,尺寸为5*5,步长为1;第二层反卷积层有128个滤波器,尺寸为3*3,步长为2;第三层反卷积层有1个滤波器,尺寸为11*11,步长为3。如图2所示,将训练集中的数据输入到深度学习模型中进行训练的过程中,需要对原始的数据集进行预处理,其过程包括:从原始视频中提取出每一帧并将大小调整为228*228。为了保证输入的图像都在相同的尺度上,将像素值按照0-1的比例缩放,并从全局均值图像中减去每一帧本文档来自技高网
...

【技术保护点】
1.一种基于扰动视觉解释的视频异常事件检测方法,其特征在于,包括:获取视频数据集,将数据集输入到优化的深度学习模型中进行模型训练;实时获取视频数据,将获取的数据输入到训练好的深度学习模型中,得到检测结果;/n所述模型训练的过程包括:将训练集的数据进行预处理,并将处理好的数据集输入到空间编码器中学习每个视频帧的空间结构;将空间编码器处理后的数据输入到时间自编码中学习空间结构的时间模式,得到特征图;采用删除解释和保留解释方法对特征图进行处理得到解释图;将特征图输入到解码器中进行反卷积操作,得到重建帧;根据输入帧和重建帧计算输入图像的规律性分数;将得到的规律性分数进行划分,得到视频异常与视频正常的分类,完成模型训练。/n

【技术特征摘要】
1.一种基于扰动视觉解释的视频异常事件检测方法,其特征在于,包括:获取视频数据集,将数据集输入到优化的深度学习模型中进行模型训练;实时获取视频数据,将获取的数据输入到训练好的深度学习模型中,得到检测结果;
所述模型训练的过程包括:将训练集的数据进行预处理,并将处理好的数据集输入到空间编码器中学习每个视频帧的空间结构;将空间编码器处理后的数据输入到时间自编码中学习空间结构的时间模式,得到特征图;采用删除解释和保留解释方法对特征图进行处理得到解释图;将特征图输入到解码器中进行反卷积操作,得到重建帧;根据输入帧和重建帧计算输入图像的规律性分数;将得到的规律性分数进行划分,得到视频异常与视频正常的分类,完成模型训练。


2.根据权利要求1所述的一种基于扰动视觉解释的视频异常事件检测方法,其特征在于,所述深度学习模型包括编码器和解码器;所述编码器包括由三个卷积层组成空间编码器以及由三层卷积长短时记忆模型组成的时间自编码器;解码器为三层反卷积层组成的空间自编码器。


3.根据权利要求2所述的一种基于扰动视觉解释的视频异常事件检测方法,其特征在于,所述长短时记忆模型为:
ft=σ(WXF*Xt+WHF*ht-1+WCFoCt-1+bF)
it=σ(WXI*Xt+WHI*ht-1+WCIoCt-1+bI)
Ct=ftoCt-1+it·tanh(WXC*Xt+WHC*ht-1+bc)
Ot=σ(WXO*Xt+WHO*ht-1+WCOoCt+bo)
ht=Ototanh(Ct)
其中,it表示输入门,ft表示遗忘门,Ct表示细胞更新状态单元,Ot表示输出门,ht表示短期记忆,*代表卷积操作,o表示Hadamard乘积,σ表示sigmoid激活函数,tanh(.)表示tanh激活函数,Ct-1表示细胞过去状态单元,ht-1表示上一时刻的输出值,Xt表示当前的输入值,WXF表示输入数据时遗忘门的权重矩阵,WHF表示上一时刻遗忘门的权重矩阵,WCF表示在遗忘门中细胞过去状态单元的权重矩阵,bF表示遗忘门的偏置向量,WXI表示输入数据时输入门的权重矩阵,WHI表示上一时刻输入门的权重矩阵,WCI表示在输入门中细胞过去状态单元的权重矩阵,bI表示输入门的偏置向量,WXC表示输入数据时输入门的权重矩阵,WHC表示上一时刻细胞更新状态单元的权重矩阵,bc表示长期记忆偏置向量,WXO表示输入数据时输出门的权重矩阵,WHO表示上一时刻输出门的权重矩阵,WCO表示输出门中细胞过去状态单元的权重矩阵,bo表示输出门的偏置向量。


4.根据权利要求1所述的...

【专利技术属性】
技术研发人员:丰江帆张莉梁渝坤熊伟
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1