本发明专利技术属于计算机视觉技术领域,具体为一种基于多路径注意力时序的视频异常检测方法,包括步骤一、循环残差卷积单元;步骤二、跳跃注意力门;步骤三、规则性得分。本发明专利技术中每个RRCU的活动不仅会受到其相邻单元活动的调节,并且可以根据网络和任务的不同设置不同的时间步长,该属性增强了模型对上下文信息的整合能力;同时,考虑到编码阶段对图像压缩会造成信息损失,利用跳跃注意力门聚合来自多个特征尺度的信息,其可自动学习并关注不同形状和大小的目标对象,更好地突出显著性局部特征;作为一个端到端的学习框架,模型利用多尺度的时空特征可以捕获更多的正态分布信息。特征可以捕获更多的正态分布信息。特征可以捕获更多的正态分布信息。
【技术实现步骤摘要】
一种基于多路径注意力时序的视频异常检测方法
[0001]本专利技术涉及计算机视觉
,具体为一种基于多路径注意力时序的视频异常检测方法。
技术介绍
[0002]人工智能以及计算机硬件的快速发展极大地推动了智能监控视频的发展,但其仍面临的一个基本挑战是自动检测复杂和拥挤的场景中的异常事件。视频中的异常检测是指识别不符合预期行为的事件,其在发现各种违规行为以及其他一些不寻常的事件发挥着重要作用。近几年,许多视频异常检测的方法被提出,并取得了巨大的成功。然而,由于异常事件罕见性和歧义性,使其仍然是一个具有挑战性的问题。
[0003]除此之外,一个场景中的异常事件可以被视为另一个场景中的正常事件。因此,解决时间上下文和捕获连续视频帧之间的依赖关系也成为视频异常检测的难点之一。为解决该问题,早期的大部分工作从复杂的手工特征来获得有关上下文的先验知识,但这些手工特征具有有限的表示能力,难以捕捉复杂视频的运动模式。为缓解这些缺点,许多基于深度学习的方法被提出来解决时序问题,并带了巨大的性能改进。例如,Zhou等人通过基于补丁的稀疏自动编码器提取到的特征来训练递归神经网络;Yong等人利用由卷积自编码器和长短期记忆的组合模型来学习时空特征。然而,这些模型有一个共同的特点,它们的循环机制置于层间。
技术实现思路
[0004]本部分的目的在于概述本专利技术的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0005]鉴于上述和/或现有计算机视觉存在的问题,提出了本专利技术。
[0006]因此,本专利技术的目的是提供一种基于多路径注意力时序的视频异常检测方法,能够增强模型对上下文信息的整合能力。
[0007]为解决上述技术问题,根据本专利技术的一个方面,本专利技术提供了如下技术方案:
[0008]一种基于多路径注意力时序的视频异常检测方法,其包括:所述方法包括:
[0009]步骤一、循环残差卷积单元,将连续的T帧依次输入到编码器中进行特征提取并输入到上下文模块中,实现多尺度特征提取以及时序信息的建模;
[0010]步骤二、跳跃注意力门,在不同尺度的信息压缩之前直接将显著性的低层特征信息转换为解码特征图,采用SAG,通过跳跃连接将下采样层的结构化信息和当前层纹理信息进行融合,并利用归一化注意力系数得到关联性强的区域,每个跳跃连接的门控信号聚合了来自多个特征尺度的信息,这提高了查询信号的网格分辨率;
[0011]步骤三、规则性得分,采用T帧的特征图进行跳跃连接,最终输出一帧作为T+1帧的
预测结果,并使用实际的第T+1帧作为Ground Truth来完成预测任务。
[0012]作为本专利技术所述的一种基于多路径注意力时序的视频异常检测方法的一种优选方案,其中:所述步骤一中编码器主要由不同尺度的RRCU和卷积块构建,RRCU关键是循环卷积层,RRCU含RCL;RCL是根据RRCU表示的时间步长t执行的;对于位于RCL中第k个特征图上位于(m,n)处的像素,其在时间步长为t时的净输入由下式计算:
[0013][0014]其中,和分别表示前馈输入和第l个RCL的输入;和分别表示向量化的前馈权重和第k个RCL的循环权重,b
l
是偏差;其表达式为:
[0015][0016]RRCU的最终输出通过残差单元。假设RRCU的输出是u
x+1
,其计算如下:
[0017]u
x+1
=u
x
+F(u
x
,w
l
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0018]其中,u
x
表示RRCU的输入。
[0019]作为本专利技术所述的一种基于多路径注意力时序的视频异常检测方法的一种优选方案,其中:步骤二中SAG的输出是输入特征图和注意力系数的元素乘法,如下式所示:
[0020][0021]其中,注意力系数α
i
∈[0,1]。表示每个像素向量,C
x
对应于层x中的特征图的数量;i和c分别表示空间维度和通道维度;连接的特征F
x
和G被线性映射到维的空间中;每个像素i使用一个门控向量来确定显著性区域;注意力公式如下:
[0022][0023][0024]其中,和偏置项b
ψ
∈R,均为SAG的特征参数ξ
att
,且这些参数被计算通过使用输入张量为1
×1×
1通道卷积;
[0025]SAG参数可以通过标准的反向传播更新进行训练,而无需使用基于采样的更新方法,第x
‑
1层参数的更新规则可表述为式(7)。
[0026][0027]其中,右侧的第一个梯度项被缩放按比例Φ
x
表示第x卷积层的核参数。
[0028]作为本专利技术所述的一种基于多路径注意力时序的视频异常检测方法的一种优选方案,其中:步骤三中根据Mathieu,使用图像质量评估方法峰值信噪比(PSNR),如式(8)所示;
[0029][0030]其中,N是视频帧中的像素数;当视频帧正常时获得较高的PSNR值,反之亦然;
[0031]在计算每个预测帧与真实帧I
t
的PSNR之后,将每个测试视频中的所有帧的PSNR
归一化到[0,1]范围内,并使用式(9)来计算每帧的规则性分数:
[0032][0033]因此,根据其得分S(t)来预测一帧是正常还是异常。
[0034]作为本专利技术所述的一种基于多路径注意力时序的视频异常检测方法的一种优选方案,其中:RRCU中的循环连接不仅确保每个单元将上下文信息合并到当前层的任意大区域中,而且在增加网络深度的同时通过权重共享保持可调参数的数量不变;RRCU从输入到输出之间的较长路径使得模型可以学习更复杂的特征,而较短路径有助于训练期间梯度的反向传播。
[0035]与现有技术相比,本专利技术的有益效果在于:
[0036]本专利技术与目前最流行的长短期记忆网络和门控循环单元等层间循环神经网络不同,采用一种新颖的具有时序功能的层内循环残差卷积单元,每个RRCU的活动不仅会受到其相邻单元活动的调节,并且可以根据网络和任务的不同设置不同的时间步长,该属性增强了模型对上下文信息的整合能力;同时,考虑到编码阶段对图像压缩会造成信息损失,利用跳跃注意力门聚合来自多个特征尺度的信息,其可自动学习并关注不同形状和大小的目标对象,更好地突出显著性局部特征;作为一个端到端的学习框架,模型利用多尺度的时空特征可以捕获更多的正态分布信息。
附图说明
[0037]为了更清楚地说明本专利技术实施方式的技术方案,下面将将结合附图和详细实施方式对本专利技术进行详细说明,显而易见地,下面描述中的附图仅仅是本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于多路径注意力时序的视频异常检测方法,其特征在于,所述方法包括:步骤一、循环残差卷积单元,将连续的T帧依次输入到编码器中进行特征提取并输入到上下文模块中,实现多尺度特征提取以及时序信息的建模;步骤二、跳跃注意力门,在不同尺度的信息压缩之前直接将显著性的低层特征信息转换为解码特征图,采用SAG,通过跳跃连接将下采样层的结构化信息和当前层纹理信息进行融合,并利用归一化注意力系数得到关联性强的区域,每个跳跃连接的门控信号聚合了来自多个特征尺度的信息,这提高了查询信号的网格分辨率;步骤三、规则性得分,采用T帧的特征图进行跳跃连接,最终输出一帧作为T+1帧的预测结果,并使用实际的第T+1帧作为Ground Truth来完成预测任务。2.根据权利要求1所述的一种基于多路径注意力时序的视频异常检测方法,其特征在于,所述步骤一中编码器主要由不同尺度的RRCU和卷积块构建;RRCU的关键是循环卷积层,RRCU包含RCL;RCL是根据RRCU示的时间步长t执行的;对于位于RCL中第k个特征图上位于(m,n)处的像素,其在时间步长为t时的净输入由下式计算:其中,和分别表示前馈输入和第l个RCL的输入;和分别表示向量化的前馈权重和第k个RCL的循环权重,b
l
是偏差;其表达式为:RRCU的最终输出通过残差单元,假设RRCU的输出是u
x+1
,其计算如下:u
x+1
=u
x
+F(u
x
,w
l
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,u
x
表示RRCU的输入。3.根据权利要求1所述的一种基于多路径注意力时序的视频异常检测方法,其特征在于,步骤二中SAG的输出是输入特征图和注意力系数的...
【专利技术属性】
技术研发人员:李洪均,孙晓虎,陈金怡,申栩林,陈俊杰,
申请(专利权)人:南通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。