当前位置: 首页 > 专利查询>南通大学专利>正文

一种基于场景目标的视频异常检测方法、系统及设备技术方案

技术编号:36263888 阅读:18 留言:0更新日期:2023-01-07 10:02
本发明专利技术属于计算机视觉领域,具体涉及一种基于场景目标的视频异常检测方法、系统及设备,本发明专利技术方法包括以下步骤:在训练阶段,从训练集视频帧中提取前景目标,并进行不失真的缩放;编码器提取前景目标作为查询项,并训练解码器预测下一个目标画布;在解码器预测下一个目标画布的过程中,读取或更新记忆模块;在测试阶段将视频帧输入视频异常检测模型,并对视频帧打出异常分数。本发明专利技术对视频场景中的前景目标与背景信息进行区分,着重关注前景目标的异常,并针对异常情况繁多且异常数据难以获取的情况,在训练阶段仅对正常数据进行训练,在测试阶段将远离正常数据分布的测试数据区分为异常,提高检测准确性与检测速度,实现检测实时性。实时性。实时性。

【技术实现步骤摘要】
一种基于场景目标的视频异常检测方法、系统及设备


[0001]本专利技术属于计算机视觉领域,尤其涉及一种基于场景目标的视频异常检测方法、系统及设备。

技术介绍

[0002]视频异常检测是指识别不符合预期的运动或外观模式。同时,由于异常事件的多样性和不可预测性,视频异常检测已成为一项极具挑战性的任务。目前,基于弱监督和无监督模式的视频异常检测方法备受关注。其中,弱监督异常检测方法是将正常/异常视频帧分别标记为正常/异常,并借助此类视频级标签实现异常检测。相比之下,无监督异常检测方法仅在训练阶段对正常数据进行训练,并在测试阶段将远离正常数据分布的测试数据区分为异常。弱监督方法避免使用细粒度标签,效率更高,但与无监督方法相比,它们存在一些缺点。首先,弱监督方法需要在训练阶段标记异常视频帧,异常数据不仅在现实生活中很少见,而且获取成本非常高,而无监督方法在训练阶段只对正常数据进行训练;其次,异常的类型很多,弱监督的方法不能泛化所有类型的异常,所以模型可能会在测试阶段将训练中没有遇到的异常类型判断为正常,而无监督的方法会判断没有遇到的数据。不符合正常数据多样性视为异常,可以有效避免考虑各类异常,判断标准也更加清晰;最后,视频级标签的获取也需要人工仔细检查,在训练数据量大的情况下也需要大量的人力。无监督方法不需要标签,更适合实际应用。尽管无监督方法在视频异常检测领域取得了巨大成功,但大多数无监督方法直接使用整个视频帧作为训练的输入来提取所有视频帧的全局正常特征。然而,我们认为当同一物体处于不同的背景环境中时,其检测性能很容易受到背景信息的影响。此外,视频信息主要包括前景信息和背景信息。背景信息的比例往往大于前景信息,异常更容易出现在前景中。基于此,如果将背景信息和前景物体信息分开处理,势必会增加模型参数的数量,降低模型检测速度。
[0003]根据上述分析,有必要提供一种基于场景目标的视频异常检测方法、系统及设备,使模型能对前景目标中存在的异常更具敏感性,从而提高检测的准确性。

技术实现思路

[0004]为了克服上述现有技术的不足,本专利技术的主要目的在于提供一种基于场景目标的视频异常检测方法、系统及设备,以提高视频异常检测的准确性。
[0005]本专利技术为实现以上专利技术目的,采用以下技术方案:
[0006]一种基于场景目标的视频异常检测方法包含以下步骤:
[0007]步骤S1、训练视频异常检测模型,使用目标检测算法和目标跟踪算法从训练集视频帧中提取前景目标,并进行不失真的缩放;其中视频异常检测模型包括编码器、解码器和记忆模块;
[0008]步骤S2、将待检测的目标画布输入编码器,由编码器提取出查询项,并将查询项和记忆模块中与查询项最相似的内存项进行融合,得到融合特征项;将查询项与融合特征项
输入解码器,训练解码器预测下一个目标画布;在解码器预测下一个目标画布的过程中,读取或更新记忆模块;
[0009]步骤S3、进入测试阶段,将测试视频帧输入视频异常检测模型,并对视频帧打出异常分数。
[0010]进一步作为本专利技术方法的优选技术方案,在步骤S1中,从视频帧中提取目标时,使用在MS COCO数据集上预训练的YOLOv5算法作为目标检测算法,使用DeepSORT算法作为目标跟踪算法;将提取到的目标缩放到三像素值为128的画布上。
[0011]进一步作为本专利技术方法的优选技术方案,步骤S2中具体包含以下内容:
[0012]设t时刻的目标画布和查询项分别为o
t
和q
t
,把需要预测的目标画布的前T个目标画布(o
t

T
,...,o
t
‑2,o
t
‑1)表示为x
T
;w和h分别表示目标画布在经过编码器编码以后得到的查询项块的宽度和高度;t时刻的单个查询项用表示,其中k=1,...,K,K=w
×
h;
[0013]训练解码器预测下一个目标画布,将x
T
作为编码器的输入项,由编码器编码出查询项块之后,将每个查询项输入到记忆模块并读取出对应的融合特征项;解码器将查询项块和融合项块解码并预测出目标画布
[0014]进一步作为本专利技术方法的优选技术方案,编码器和解码器使用Unet网络;编码器由2个卷积层和三个最大池化层组成,卷积层不改变原始特征层的大小,最大池化层将输入特征层的长度和宽度减少了一半,编码器编码后得到的查询块的长度和宽度减少到原来的八分之一。编码器和解码器组成自动编码器。
[0015]进一步作为本专利技术方法的优选技术方案,记忆模块在训练阶段记忆物体的多个正常模式,使远离正常模式的物体在测试阶段被判断为异常,其中出现在训练集中的模式定义为正常模式,否则为异常模式。
[0016]记忆模块的内存项用表示,其中M表示内存项的数量。
[0017]在读取记忆模块时,计算每个查询项和内存项的余弦相似度,应用softmax函数,得到每个查询项和第m项内存项p
m
的余弦相似度权重如公式(1)所示:
[0018][0019]其中p
m

为第m

项内存项,对于每个查询项通过即可得到对应的融合特征项如公式(2)所示:
[0020][0021]每个查询项从记忆模块的正常模式中提取最相关的信息并使其融合,最终K个查询项可得到K个融合特征项;
[0022]在更新记忆模块时,查询项中与第m项内存项p
m
最相似的索引集合为根据索引集合更新内存项,如公式(3)所示:
[0023][0024]式中的f(
·
)表示L2标准化,表示在t时刻下将第m个内存项和索引集合中的查询项进行余弦相似度计算并应用softmax函数后的权重,如公式(4)所示:
[0025][0026]其中表示t时刻下第k

个查询项,通过加权求和查询项使记忆模块的内存项更新时能够更好地发现最相似的正常模式查询项。
[0027]进一步作为本专利技术方法的优选技术方案,训练阶段中的训练损失由三部分组成:预测损失L
pred
、特征紧密损失L
compact
和特征分离损失L
separate
;利用平衡参数η
c
和η
s
将三个损失进行平衡,最终总损失L如公式(5)所示:
[0028]L=L
pred

c
L
compact

s
L
separate
ꢀꢀꢀ
(5)
[0029]预测损失L
pred
惩罚解码器预测的目标画布和真实目标画布o
t
像素级的差异,该差异具体为像素间的L2距离,如公式(6)所示:
[0030][0031]其中,T表示一个视频序列的总长度,“t=5”是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于场景目标的视频异常检测方法,其特征在于,所述方法包括:步骤S1、训练视频异常检测模型,使用目标检测算法和目标跟踪算法从训练集视频帧中提取前景目标,并进行不失真的缩放;其中所述视频异常检测模型包括编码器、解码器和记忆模块;步骤S2、将待检测的目标画布输入所述编码器,由所述编码器提取出查询项,并将查询项和记忆模块中与所述查询项最相似的内存项进行融合,得到融合特征项;将所述查询项与所述融合特征项输入解码器,训练所述解码器预测下一个目标画布;在所述解码器预测下一个目标画布的过程中,读取或更新所述记忆模块;步骤S3、进入测试阶段,将测试视频帧输入所述视频异常检测模型,并对视频帧打出异常分数。2.根据权利要求1所述的一种基于场景目标的视频异常检测方法,其特征在于,在所述步骤S1中,从视频帧中提取目标时,使用在MS COCO数据集上预训练的YOLOv5算法作为目标检测算法,使用DeepSORT算法作为目标跟踪算法;将提取到的目标缩放到三像素值为128的画布上。3.根据权利要求1所述的一种基于场景目标的视频异常检测方法,其特征在于,所述步骤S2中具体包含以下内容:设t时刻的目标画布和查询项分别为o
t
和q
t
,把需要预测的目标画布的前T个目标画布(o
t

T
,...,o
t
‑2,o
t
‑1)表示为x
T
;w和h分别表示目标画布在经过所述编码器编码以后得到的查询项块的宽度和高度;t时刻的单个查询项用表示,其中k=1,...,K,K=w
×
h;训练解码器预测下一个目标画布,将x
T
作为所述编码器的输入项,由所述编码器编码出查询项块之后,将每个查询项输入到记忆模块并读取出对应的融合特征项;所述解码器将查询项块和融合项块解码并预测出目标画布4.根据权利要求3所述的一种基于场景目标的视频异常检测方法,其特征在于,所述记忆模块在训练阶段记忆物体的多个正常模式,使远离正常模式的物体在测试阶段被判断为异常,其中出现在所述训练集中的模式定义为正常模式,否则为异常模式;所述记忆模块的内存项用表示,其中m=1,...,M,M表示内存项的数量;在读取记忆模块时,计算每个查询项和内存项的余弦相似度,应用softmax函数,得到每个查询项和第m项内存项p
m
的余弦相似度权重如公式(1)所示:其中p
m

为第m

项内存项,对于每个查询项通过即得到对应的融合特征项如公式(2)所示:每个查询项从记忆模块的正常模式中提取最相关的信息并使其融合,最终K个查询
项可得到K个融合特征项;在更新记忆模块时,查询项中与第m项内存项p
m
最相似的索引集合为根据索引集合更新内存项,如公式(3)所示:式中的f(
·
)表示L2标准化,表示在t时刻下将第m个内存项和索引集合中的查询项进行余弦相似度计算并应用softmax函数后的权重,如公式(4)所示:其中表示t时刻下第k

个查询项,通过加权求和查询项使记忆模块的内存项更新时能够发现最相似的正常模式查询项。5.根据权利要求4所述的一种基于场景目标的视频异常检测方法,其特征在于,训练阶段中的训练损失由三部分组成:预测损失L
pred
、特征紧密损失L
compact
和特征分离损失L
separate
;利用η
c
和η
s
将三个损失进行平衡,最终总损失L如公式(5)所示:L=L
pred
...

【专利技术属性】
技术研发人员:李洪均陈金怡孙晓虎陈俊杰
申请(专利权)人:南通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1