The invention provides a video target detection method based on depth feature pyramid and tracking loss, and solves the problem of stability and accuracy of video target detection. In this method, multi-scale feature map is used in the process of target detection. The bottom feature map has high dimension, rich detail information, low latitude of high-level features and rich semantic information, which can make better use of the spatial information of video images and make detection adapt to multi-scale and multi-type targets. In this method, multi-scale candidate window generation method is used to densely sample small targets and discretely sample large targets. Considering the different accuracy of different targets when they are detected, the target scale is processed separately. Small-scale targets are fine sampled and large-scale targets are rough sampled to increase detection speed.
【技术实现步骤摘要】
一种基于深度特征金字塔与跟踪损失的视频目标检测方法
本专利技术属于视频目标检测
,涉及一种基于特征金字塔与跟踪损失的视频目标检测方法。
技术介绍
随着图像采集设备的普及,尤其是监控设备的大范围布置,获得的视频数据分辨率也越来越高,由此引发的对于视频图像的处理需求也越来越高。其中,对于视频数据中的目标检测是一个重要的研究方向,视频目标检测对于安保防护,人流密度统计,目标再识别等应用有重要意义。同时视频数据相对于图像数据来说,多了时间维度数据,同时数据量相对于图像数据来说几何倍数增长,这就为视频数据的目标检测带来了挑战。在视频目标检测领域里,基于深度神经网络的目标检测主要包含两种方法:第一种是基于单帧图像的视频检测方法,即首先将视频数据拆分成单帧图像,对每一帧图像进行单独检测。但是单帧检测的方法只利用了图像的两维数据,完全没有利用视频的时间轴信息,会造成检测结果不稳定,检测框忽大忽小以及目标丢失等问题;第二种是利用视频时间信息的视频检测方法,也是目前视频目标检测主要研究的方向,视频时间信息的利用多种多样,包括提取光流特征以及利用跟踪信息等方式。其中,提取光流特征 ...
【技术保护点】
1.一种基于深度特征金字塔与跟踪损失的视频目标检测方法,其特征在于,包括如下步骤:步骤1,构建两个完全相同的神经网络,每个神经网络均包括基础神经网络以及特征金字塔;其中根据视频目标尺寸选择基础网络中的某一卷积层,基于该卷积层卷积得到特征金字塔;针对特征金字塔中每一层特征图,依据待检测目标对每个像素点构建候选窗;对视频目标样本数据集中的每一帧图像进行标注,得到训练集视频目标的所有帧图像及其标注信息;步骤2,依次将训练集中视频目标的前后两帧图像分别作为两个神经网络的输入,对网络输入进行前向传播;在前向传播中,对于任一神经网络,针对特征金字塔中每一层特征图,将该层特征图中的每个候 ...
【技术特征摘要】
1.一种基于深度特征金字塔与跟踪损失的视频目标检测方法,其特征在于,包括如下步骤:步骤1,构建两个完全相同的神经网络,每个神经网络均包括基础神经网络以及特征金字塔;其中根据视频目标尺寸选择基础网络中的某一卷积层,基于该卷积层卷积得到特征金字塔;针对特征金字塔中每一层特征图,依据待检测目标对每个像素点构建候选窗;对视频目标样本数据集中的每一帧图像进行标注,得到训练集视频目标的所有帧图像及其标注信息;步骤2,依次将训练集中视频目标的前后两帧图像分别作为两个神经网络的输入,对网络输入进行前向传播;在前向传播中,对于任一神经网络,针对特征金字塔中每一层特征图,将该层特征图中的每个候选窗与一个经过高斯初始化的滤波矩阵进行卷积得到该候选窗的类判别结果,基于该层特征图所有候选窗的类判别结果,选择标注信息中位置与候选窗交并比最大的候选窗,将该候选窗的类判别结果与1做最小二乘运算,得到该层特征图的类判别损失;同时,将该层特征图中的每个候选窗与另一个经过高斯初始化的滤波矩阵进行卷积得到该候选窗位置判别结果,基于该层特征图所有候选窗的位置判别结果,选择标注信息中位置与候选窗交并比最大的候选窗,将该候选窗的位置判别结果与标注信息中的位置进行SmoothL1运算,得到该层特征图的位置判别损失;将所有层特征图的类判别损失与位置判别损失分别相加,得到该神经网络的类损失与位置损失,将两个神经网络的类损失与位置损失分别相加,得到总的类损失与位置损失;针对前一帧图像的特征图,计算每一候选窗和实际目标的交并比,得到与实际目标最大交并比所对应的候选窗,以该窗中心为滤波矩阵中心,构建相关滤波器的滤波矩阵;将该相关滤波器的滤波矩阵与后一帧图像的特征图进行相关运算,得到相关热力图;将相关热力图中最大值与1的差作为特征匹配差,相关热力图中最大值位置和在后一帧图像上目标位置的欧式距离作为距离偏移;所述特征匹配差与所述距离偏移构成跟踪损失;其中所有滤波矩阵尺寸一致;步骤3、利用步骤2得到的总的类损失与位置损失以及跟踪损失,对任一神经网络进行反向传播,在反向传播中,修正该网络参数,反向传播完成后将修正后的网络参数复制到另一神经网络中,重复执行步骤2-3,直到总的类损失与位置损失以及跟踪损失收敛,得到训练后的网络;步骤4,依次将测试集中视频目标的前后两帧图像输入到训练后的网络中,对网络输入进行前向传播,得到所有候选窗生成的类判别结果以及位置判别结果;对每一类的类判别结果分别进行从大到小排序,选取前n个类判别结果对应的候选窗,...
【专利技术属性】
技术研发人员:赵保军,赵博雅,唐林波,王文正,邓宸伟,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。