一种针对视频目标检测的在线学习方法技术

技术编号:27445347 阅读:38 留言:0更新日期:2021-02-25 04:08
本发明专利技术公开了一种针对视频目标检测的在线学习方法,属于机器视觉领域。包括模型预训练、目标检测、跟踪修正、标注修正、关键帧提取和模型迭代更新。先利用开源或自标注数据集训练一个基础版本的当前模型;利用当前模型对视频序列进行预检测;利用改进的KCF跟踪算法和基于特征空间的k近邻算法对预检测结果分别进行方框修正和标注修正;利用基于特征空间相似度度量的关键帧提取方法,提取视频关键帧,去除重复图像;利用关键帧数据和修正检测结果对模型进行训练,实现模型的迭代更新。本发明专利技术该方法通过跟踪算法和聚类分析对检测和标注结果进行修正,利用修正后的结果重新训练目标检测模型,实现模型性能的不断改进,实现应用场景的自适应。景的自适应。景的自适应。

【技术实现步骤摘要】
一种针对视频目标检测的在线学习方法


[0001]本专利技术属于深度学习、机器视觉领域,尤其涉及的是一种针对视频目标检测的在线学习方法。

技术介绍

[0002]目标检测即找出图像中所感兴趣的物体,包含物体定位和物体分类两个子任务,是机器视觉领域的基本任务之一,在智能交通、智能制造、安防监控、自动驾驶等领域有着广泛的应用。随着深度学习的发展,目标检测算法也逐步从基于手工特征的传统算法转向基于神经网络的深度学习算法。目前目标检测的研究主要侧重两个方向:基于图像的目标检测和基于视频的目标检测。
[0003]基于图像的目标检测算法首先被提出,分为one-stage和two-stage两类方法。Two-stage方法沿用传统的目标检测流程,包含候选区域选取、特征提取和分类/回归等三部分。其中比较经典的算法是Region-based CNN(R-CNN)系列网络,经历了由R-CNN到Fast R-CNN到Faster R-CNN的不断改进。One-stage算法简化了two-stage的步骤,将目标检测问题转换为分类和回归问题,引入一个统一的框架,直接将输入图片像素映射为目标方框和目标类别,速度大大提升,比较经典的有Single Shot MultiBox Detector(SSD)和You Only Look Once(YOLO)系列。
[0004]对于视频数据来说,尽管视频也可以被分解为一帧一帧的图像,借助图像目标检测算法进行检测,但是视频中还包含了时序上下文关系,例如目标在相邻视频帧中位置的连续性等,如果能充分利用这些特性,可以大大提高视频目标检测的精度和速度。这类算法一般是基于循环神经网路,比较经典的有Temporal Convolution Network(TCN)、Spatial-Temporal Memory Network(STMM)、Recurrent YOLO(ROLO)等。
[0005]但是,不管是基于图像的还是基于视频的算法,以往的方法一般都是采用特定的数据集(开源或者自标注)进行模型训练。基于深度学习的算法存在一个很强的假设:测试数据集分布与训练数据集分布一致。所以,不管是基于图像还是基于视频,深度学习算法存在域适配问题,也就是说,很难通过单一的目标检测模型来实现全域的检测。当场景变化时,为了使检测器达到一定精度,往往需要重新采集数据,人工标注,然后重新训练模型,需要投入大量的人力和时间。

技术实现思路

[0006]本专利技术所要解决的技术问题是针对现有技术的不足,提出一种针对视频目标检测的在线学习方法,该方法通过跟踪算法和聚类分析对检测和标注结果进行修正,然后,利用修正后的结果重新训练目标检测模型,实现模型性能的不断改进,实现应用场景的自适应。
[0007]本专利技术为解决其技术问题所采用的技术方案是:提供了一种针对视频目标检测的在线学习方法,包括以下步骤:步骤1:准备基础数据集,该数据集可以是开源数据集或针对某一特定场景采集并进行
人工标注的数据集,训练改进的YOLOv3目标检测网络,获得基础目标检测模型作为当前模型;步骤2:利用当前模型对视频序列进行预检测,获取初始检测方框和目标类别;步骤3:利用跟踪算法和k近邻算法对预检测结果进行方框修正和标注修正;步骤4:提取视频关键帧,以压缩数据集大小,取出重复图像;步骤5:利用关键帧数据和修正检测结果对模型进行训练,实现模型的迭代更新;步骤6:回到步骤2,重复以上操作。
[0008]步骤1所述的改进的YOLOv3模型的优选技术方案为:将原有YOLOv3的特征提取网络Darknet53替换为OSNet,后续网络与原有网络一致,采用三层金字塔结构,进行不同尺度下的目标检测,特征金字塔中的上采样方法采用逆卷积神经网络实现,计算BBox的损失函数时用GIOU代替原来的MSE,形成改进的YOLOv3模型。
[0009]本专利技术所述方法进一步的优选技术方案是:步骤1所述的模型训练的的工作步骤包括:步骤1.1:收集开源数据集,或采集特定场景下的视频数据,人工标注检测目标位置方框和目标类别,建立数据集;步骤1.2:对数据集进行旋转、平移、缩放和镜像变换、添加随机白噪音、亮度、色度和饱和度变化等,扩充数据集,同时将数据集随机分为训练集、验证集和测试集,其比例为6:2:2;步骤1.3:用生成的扩充数据集,利用随机梯度法训练改进的YOLOv3模型,得到基础目标检测模型作为当前模型。
[0010]本专利技术所述方法进一步的优选技术方案是:步骤2所述的预检测步骤包括:步骤2.1:将视频图像帧一帧一帧地送入当前模型,作为输入,进行前向推理得到模型输出;步骤2.2:对模型输出进行解析,提取目标方框和目标标注;步骤2.3:对得到的检测目标进行极大抑制算法(NMS),剔除重复目标,得到最终检测目标,作为预检测结果。
[0011]本专利技术所述方法进一步的优选技术方案是:步骤3所述的方框修正步骤包括:步骤3.1:对于第n帧图像的所有预检测目标都初始化一个KCF跟踪器,分别进行正向和负向跟踪,得到邻近图像帧中的跟踪目标。
[0012]步骤3.2:对于临近帧k,计算其与前一帧的帧间差分图像,获取运动目标概率图;步骤3.3:对于k帧中的每个跟踪目标,判断其是否静止,如果该目标处于运动状态,则根据运动目标概率图计算该目标的运动目标概率,如果该值小于给定阈值,则认为该目标跟踪失败,停止跟踪;步骤3.4:对每一帧都进行上述处理,则可以得到所有图像中由跟踪器捕捉到的目标方框;步骤3.5:将检测模型得到的目标方框与跟踪器捕捉到的目标方框进行融合,同时进行极大抑制算法(NMS)得到修正后的目标方框。
[0013]本专利技术所述方法进一步的优选技术方案是:步骤3所述的标注修正步骤包括:步骤3.6:获取ImageNet预训练VGG16网络模型;步骤3.7:将检测得到的每个目标方框缩放到统一尺寸(224*224),然后传入VGG16网络,得到1000维的特征向量;步骤3.8:计算不同目标特征之间的欧式距离作为目标相似度度量方式;步骤3.9:对于每个检测目标,通过k近邻算法找出与其最近的k个目标,然后采用投票机制决定该检测目标的目标类别。
[0014]本专利技术所述方法进一步的优选技术方案是:步骤4所述的关键帧提取方法步骤包括:步骤4.1:将每帧图像通过目标检测网络的特征提取网络的输出作为图像特征提取出来;步骤4.2:利用欧式距离计算图像特征之间的相似度;步骤4.3:在时间轴上找出相似度的的局部极大值作为视频关键帧提取出来。
[0015]本专利技术所述方法进一步的优选技术方案是:步骤5所述的模型迭代更新步骤包括:步骤5.1:用提取的视频关键帧和其对于的修正后的目标方框和标注重构数据集,同时,对数据集进行旋转、平移、缩放和镜像变换、添加随机白噪音、亮度、色度和饱和度变化等,扩充数据集;步骤5.2:将新数据集划分为训练集、验证集和测试集,其比例为6:2:2;步骤5.3:采用新数据集,利用随机梯度法训练改进的YOLOv3模型,得到改进模型,更新当前模型。
[001本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对视频目标检测的在线学习方法,其特征在于:该方法包括模型预训练、目标检测、跟踪修正、标注修正、关键帧提取和模型迭代更新,该方法具体包括如下步骤:步骤1:利用开源或自标注数据集训练一个基础版本的改进YOLOv3目标检测模型,作为当前模型;步骤2:利用当前模型对视频序列进行预检测,获取初始检测方框和目标类别;步骤3:利用改进的KCF跟踪算法和基于特征空间的k近邻算法对预检测结果分别进行方框修正和标注修正;步骤4:利用基于特征空间相似度度量的关键帧提取方法,提取视频关键帧,以压缩数据集大小,去除重复图像;步骤5:利用关键帧数据和修正检测结果对模型进行训练,实现模型的迭代更新;步骤6:回到步骤2,重复以上操作。2.根据权利要求1所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤1所述的改进的YOLOv3模型采用全尺度网络OSNet作为特征提取网络,特征金字塔中的上采样方法采用逆卷积神经网络实现,BBox的回归损失函数用GIOU替代MSE,anchors大小的选择仍采用聚类算法,得到9个聚类中心,形成改进的YOLOv3模型。3.根据权利要求1所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤3所述跟踪修正方法是:引入了帧间差分估计运动目标概率,首先利用跟踪算法对检测目标进行跟踪,判断目标是否静止,如果目标运动,则利用帧间差分获取方框目标概率,如果小于给定阈值,则认为跟踪失败,停止跟踪,利用跟踪结果进一步修正检测结果,即将跟踪到而未检测到的目标作为漏检目标添加到检测目标列表中。4.根据权利要求1所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤3所述标注修正方法是,利用神经网络获取检测目标的特征,通过k近邻算法对目标标注进行投票更新,修正检测结果标注。5.根据权利要求1所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤4所述的关键帧提取方法是:利用目标检测网络特征提取层的输出作为图像特征,计算图像之间的距离来衡量图像的相似度,选取相似度的局部极大值作为视频关键帧。6.根据权利要求1-5中任何一项所述的一种针对视频目标检测的在线学习方法,其特征在于:步骤1所述的模型训练的工作步骤包括:步骤1.1:收集开源数据集,或采集特定场景下的视频数据,人工标注检测目标位置方框和目标类别,建立数据集;步骤1.2:对数据集进行旋转、平移、缩放和镜像变换、添加随机白噪音、亮度、色度和饱和度变化,扩充数据集,同时将数据集随机分为训练集、验证集和测试集,其比例为6:2:2;步骤1.3:用生成的扩充数据集,利用随机梯度法训练改进的YOLOv3模型,得到基础目标检测模型作为当前模...

【专利技术属性】
技术研发人员:张宇杰项俊平刘建华张锋鑫高超
申请(专利权)人:连云港杰瑞电子有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1