一种基于深度卷积神经网络的视频小目标检测方法技术

技术编号:20426262 阅读:27 留言:0更新日期:2019-02-23 08:52
本发明专利技术提供一种基于深度卷积神经网络的视频小目标检测方法,利用深度卷积神经网络多层非线性结构的特性对视频目标特征进行整体建模,结合Faster RCNN对于普通视频目标检测快速准确的特点以及ResNet在深度网络特征提取层加入的effective path(多人投票系统),再加上后期对网络结构的精简,提出了一种可以对视频目标进行快速检测,同时兼顾小目标检测的基于深度网络结构ERF‑Net(Efficient Residual Faster rcnn)的视频目标检测方法。本发明专利技术的优点如下:对视频中不同远近、不同尺度大小的目标进行准确、快速检测,提高了小目标检测的效果和效率,为后续的目标跟踪、目标再识别等提供了较好的基础。

【技术实现步骤摘要】
一种基于深度卷积神经网络的视频小目标检测方法
本专利技术涉及计算机视觉和大数据处理中智能视频监控的
,具体涉及一种基于深度卷积神经网络、能从海量视频数据中快速并准确地检测出感兴趣的小尺度目标的检测方法。
技术介绍
如何将视频监控系统获取的海量视频数据利用人工智能的方法进行高效的分析,是近年来计算机视觉和大数据领域备受关注的一个前沿课题。随着计算机科学技术以及视频监控硬件的快速发展,业界对智能视频监控技术的要求越来越高。所谓的智能视频监控处理技术,主要是指在无需人力干预的情况下,利用计算机视觉的视频分析方法,将视频解析为一个视频序列并自动分析,从而实现对实际监控场景中目标的检测、分类、识别与跟踪,再通过既定算法完成对当前视频目标行为的分析等。这种技术在完美替代传统监控所有功能的同时,还可以对突发的各种异常情况做出迅速反应。视频目标检测在智能视频监控分析系统中起着关键性的作用,不仅是整个智能视频处理系统的基础部分,更是后续如目标跟踪、目标再识别等各种高级应用的基础。然而,视频中的小目标因尺度较小,极易受到噪声干扰,从而导致误检和漏检,现有技术中的小目标检测,效果不佳,效率也不高,影响后续的目标跟踪、目标再识别的准确性。
技术实现思路
本专利技术的目的是提供一种针对不同远近、不同尺寸大小的目标进行快速、准确检测的基于深度卷积神经网络的视频小目标检测方法。为了达到上述目的,本专利技术通过以下技术方案来实现:一种基于深度卷积神经网络的视频小目标检测方法,包括如下步骤:步骤(1)模型预训练:基于预训练的VGG模型开始网络的迭代训练,在大小为51×39的256通道图像的每一个位置取9个候选窗口,即三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1},候选窗口作为anchors,即锚点;步骤(2)基于深度卷积神经网络的特征提取:加入残差结构的卷积层用于提取特征图,网络使用的损失函数为;其中,i表示锚点索引值,pi表示前景的softmax预测概率,表示对应的GroundTruth预测概率,t表示预测的boundingbox,t*表示前景锚点对应的GroundTruthbox,且,,为参数;步骤(3)获取候选区域及其对应的Softmax概率:依据步骤(1)、(2)中训练得到的网络E-RPN,获取候选ROI区域,获取检测目标的Softmax概率;步骤(4)读取候选区域及其对应的Softmax概率:将获取的候选ROI区域信息传入网络,将其对应的Softmax概率作为bbox_inside_weights传入网络,通过caffeblob大小对比,计算得出bbox_outside_weights作为参数;步骤(5)循环迭代训练E-RPN网络:将获取得到的候选ROI区域循环迭代训练网络E-RPN,直至Softmax概率与检测框回归,得到最终模型。进一步地,步骤(2)中,的取值为:当第i个anchor与GroundTruth间IoU(intersection-of-union)>0.7,则;当IoU<0.3时,则;对于0.3<IoU<0.7的锚点则不参与训练。本专利技术与现有技术相比,具有以下优点:本专利技术一种基于深度卷积神经网络的视频小目标检测方法,利用深度卷积神经网络多层非线性结构的特性对视频目标特征进行整体建模,结合FasterRCNN对于普通视频目标检测快速准确的特点以及ResNet在深度网络特征提取层加入的effectivepath(多人投票系统),再加上后期对网络结构的精简,提出了一种可以对视频目标进行快速检测,同时兼顾小目标检测的基于深度网络结构ERF-Net(EfficientResidualFasterrcnn)的视频目标检测方法。本专利技术的视频检测方法,可以对视频中不同远近、不同尺度大小的目标进行准确、快速检测,提高了小目标检测的效果和效率,为后续的目标跟踪、目标再识别等提供了较好的基础。附图说明图1是本专利技术一种基于深度卷积神经网络的视频小目标检测方法的流程示意图。具体实施方式下面结合附图,对本专利技术的实施例作进一步详细的描述。如图1所示,一种基于深度卷积神经网络的视频小目标检测方法,包括如下步骤:步骤(1)模型预训练:基于预训练的VGG模型开始网络的迭代训练,在大小为51×39的256通道图像的每一个位置取9个候选窗口,即三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1},候选窗口作为anchors,即锚点;步骤(2)基于深度卷积神经网络的特征提取:加入残差结构的卷积层用于提取特征图,网络使用的损失函数为;其中,i表示锚点索引值,pi表示前景的softmax预测概率,表示对应的GroundTruth预测概率,t表示预测的boundingbox,t*表示前景锚点对应的GroundTruthbox,且,,为参数;其中,的取值为:当第i个anchor与GroundTruth间IoU(intersection-of-union)>0.7,则;当IoU<0.3时,则;对于0.3<IoU<0.7的锚点则不参与训练;步骤(3)获取候选区域及其对应的Softmax概率:依据步骤(1)、(2)中训练得到的网络E-RPN,获取候选ROI区域,获取检测目标的Softmax概率;步骤(4)读取候选区域及其对应的Softmax概率:将获取的候选ROI区域信息传入网络,将其对应的Softmax概率作为bbox_inside_weights传入网络,通过caffeblob大小对比,计算得出bbox_outside_weights作为参数;步骤(5)循环迭代训练E-RPN网络:将获取得到的候选ROI区域循环迭代训练网络E-RPN,直至Softmax概率与检测框回归,得到最终模型。本方法采用的损失函数分为两部分:cls_loss和reg_loss。cls_loss即E-rpn_cls_loss层计算的softmaxloss,用于做前景、背景分类的网络训练;reg_loss即E-rpn_loss_bbox层计算的soomthL1loss,用于boundingbox回归网络的训练。在该损失函数中乘了,即只关心前景锚点的回归。由于在实际过程中,和差距过大,用参数平衡二者。如,时,设置,使总的网络Loss计算过程中能够均匀考虑两种Loss。这里比较重要是回归Loss使用的soomthL1loss,即Lreg(ti,ti*)。生成和存储锚点的顺序在训练和检测阶段需要完全一致。以上所述仅是本专利技术优选实施方式,应当指出,对于本
的普通技术人员,在不脱离本专利技术构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本专利技术保护范围内。本文档来自技高网
...

【技术保护点】
1.一种基于深度卷积神经网络的视频小目标检测方法,其特征在于包括如下步骤:步骤(1)模型预训练:基于预训练的VGG模型开始网络的迭代训练,在大小为51×39的256通道图像的每一个位置取9个候选窗口,即三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1},候选窗口作为anchors,即锚点;步骤(2)基于深度卷积神经网络的特征提取:加入残差结构的卷积层用于提取特征图,网络使用的损失函数为

【技术特征摘要】
1.一种基于深度卷积神经网络的视频小目标检测方法,其特征在于包括如下步骤:步骤(1)模型预训练:基于预训练的VGG模型开始网络的迭代训练,在大小为51×39的256通道图像的每一个位置取9个候选窗口,即三种面积{1282,2562,5122}×三种比例{1:1,1:2,2:1},候选窗口作为anchors,即锚点;步骤(2)基于深度卷积神经网络的特征提取:加入残差结构的卷积层用于提取特征图,网络使用的损失函数为;其中,i表示锚点索引值,pi表示前景的softmax预测概率,表示对应的GroundTruth预测概率,t表示预测的boundingbox,t*表示前景锚点对应的GroundTruthbox,且,,为参数;步骤(3)获取候选区域及其对应的Softmax概率:依据步骤(1)、(2)中训练得到的网络E-RPN,获取候选ROI区域,...

【专利技术属性】
技术研发人员:王慧燕
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1