一种基于场景目标的视频异常检测方法、系统及设备技术方案

技术编号：36263888 阅读：18 留言：0更新日期：2023-01-07 10:02

本发明专利技术属于计算机视觉领域，具体涉及一种基于场景目标的视频异常检测方法、系统及设备，本发明专利技术方法包括以下步骤：在训练阶段，从训练集视频帧中提取前景目标，并进行不失真的缩放；编码器提取前景目标作为查询项，并训练解码器预测下一个目标画布；在解码器预测下一个目标画布的过程中，读取或更新记忆模块；在测试阶段将视频帧输入视频异常检测模型，并对视频帧打出异常分数。本发明专利技术对视频场景中的前景目标与背景信息进行区分，着重关注前景目标的异常，并针对异常情况繁多且异常数据难以获取的情况，在训练阶段仅对正常数据进行训练，在测试阶段将远离正常数据分布的测试数据区分为异常，提高检测准确性与检测速度，实现检测实时性。实时性。实时性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于场景目标的视频异常检测方法、系统及设备

[0001]本专利技术属于计算机视觉领域，尤其涉及一种基于场景目标的视频异常检测方法、系统及设备。

技术介绍

[0002]视频异常检测是指识别不符合预期的运动或外观模式。同时，由于异常事件的多样性和不可预测性，视频异常检测已成为一项极具挑战性的任务。目前，基于弱监督和无监督模式的视频异常检测方法备受关注。其中，弱监督异常检测方法是将正常/异常视频帧分别标记为正常/异常，并借助此类视频级标签实现异常检测。相比之下，无监督异常检测方法仅在训练阶段对正常数据进行训练，并在测试阶段将远离正常数据分布的测试数据区分为异常。弱监督方法避免使用细粒度标签，效率更高，但与无监督方法相比，它们存在一些缺点。首先，弱监督方法需要在训练阶段标记异常视频帧，异常数据不仅在现实生活中很少见，而且获取成本非常高，而无监督方法在训练阶段只对正常数据进行训练；其次，异常的类型很多，弱监督的方法不能泛化所有类型的异常，所以模型可能会在测试阶段将训练中没有遇到的异常类型判断为正常，而无监督的方法会判断没有遇到的数据。不符合正常数据多样性视为异常，可以有效避免考虑各类异常，判断标准也更加清晰；最后，视频级标签的获取也需要人工仔细检查，在训练数据量大的情况下也需要大量的人力。无监督方法不需要标签，更适合实际应用。尽管无监督方法在视频异常检测领域取得了巨大成功，但大多数无监督方法直接使用整个视频帧作为训练的输入来提取所有视频帧的全局正常特征。然而，我们认为当同一物体处于不同的背景环境中时，其检测性能很容易受到背...

【技术保护点】

【技术特征摘要】
1.一种基于场景目标的视频异常检测方法，其特征在于，所述方法包括：步骤S1、训练视频异常检测模型，使用目标检测算法和目标跟踪算法从训练集视频帧中提取前景目标，并进行不失真的缩放；其中所述视频异常检测模型包括编码器、解码器和记忆模块；步骤S2、将待检测的目标画布输入所述编码器，由所述编码器提取出查询项，并将查询项和记忆模块中与所述查询项最相似的内存项进行融合，得到融合特征项；将所述查询项与所述融合特征项输入解码器，训练所述解码器预测下一个目标画布；在所述解码器预测下一个目标画布的过程中，读取或更新所述记忆模块；步骤S3、进入测试阶段，将测试视频帧输入所述视频异常检测模型，并对视频帧打出异常分数。2.根据权利要求1所述的一种基于场景目标的视频异常检测方法，其特征在于，在所述步骤S1中，从视频帧中提取目标时，使用在MS COCO数据集上预训练的YOLOv5算法作为目标检测算法，使用DeepSORT算法作为目标跟踪算法；将提取到的目标缩放到三像素值为128的画布上。3.根据权利要求1所述的一种基于场景目标的视频异常检测方法，其特征在于，所述步骤S2中具体包含以下内容：设t时刻的目标画布和查询项分别为o
t
和q
t
，把需要预测的目标画布的前T个目标画布(o
t
‑
T
,...,o
t
‑2,o
t
‑1)表示为x
T
；w和h分别表示目标画布在经过所述编码器编码以后得到的查询项块的宽度和高度；t时刻的单个查询项用表示，其中k＝1,...,K，K＝w
×
h；训练解码器预测下一个目标画布，将x
T
作为所述编码器的输入项，由所述编码器编码出查询项块之后，将每个查询项输入到记忆模块并读取出对应的融合特征项；所述解码器将查询项块和融合项块解码并预测出目标画布4.根据权利要求3所述的一种基于场景目标的视频异常检测方法，其特征在于，所述记忆模块在训练阶段记忆物体的多个正常模式，使远离正常模式的物体在测试阶段被判断为异常，其中出现在所述训练集中的模式定义为正常模式，否则为异常模式；所述记忆模块的内存项用表示，其中m＝1,...,M，M表示内存项的数量；在读取记忆模块时，计算每个查询项和内存项的余弦相似度，应用softmax函数，得到每个查询项和第m项内存项p
m
的余弦相似度权重如公式(1)所示：其中p
m
′
为第m
′
项内存项，对于每个查询项通过即得到对应的融合特征项如公式(2)所示：每个查询项从记忆模块的正常模式中提取最相关的信息并使其融合，最终K个查询
项可得到K个融合特征项；在更新记忆模块时，查询项中与第m项内存项p
m
最相似的索引集合为根据索引集合更新内存项，如公式(3)所示：式中的f(
·
)表示L2标准化，表示在t时刻下将第m个内存项和索引集合中的查询项进行余弦相似度计算并应用softmax函数后的权重，如公式(4)所示：其中表示t时刻下第k
′
个查询项，通过加权求和查询项使记忆模块的内存项更新时能够发现最相似的正常模式查询项。5.根据权利要求4所述的一种基于场景目标的视频异常检测方法，其特征在于，训练阶段中的训练损失由三部分组成：预测损失L
pred
、特征紧密损失L
compact
和特征分离损失L
separate
；利用η
c
和η
s
将三个损失进行平衡，最终总损失L如公式(5)所示：L＝L
pred
...

【专利技术属性】
技术研发人员：李洪均，陈金怡，孙晓虎，陈俊杰，
申请(专利权)人：南通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人