一种基于深度学习的目标区域检测方法技术

技术编号:21302502 阅读:45 留言:0更新日期:2019-06-12 08:42
一种基于深度学习的目标区域检测方法属于计算机视觉技术领域,该方法在主要采用了retinanet检测网络。RetinaNet本质上是由resnet+FPN+两个FCN子网络组成的网络结构。这里我把backbone分别采用ResNeXt50和densenet169而代替了之前的resnet。并对retnanet网络的FPN层以及loss损失函数进行了修改,最后进行了模型的融合。该目标检测方法结合了目前主流的目标检测方法的优点,并且已经解决了一系列实际的问题。本算法在coco2017下进行了实验,性能有非常好的表现。比retinanet下的单模型以及未对模型进行改进时的结果都要好。另外在其它数据集上也具有较好的表现。

A Target Region Detection Method Based on Deep Learning

A target region detection method based on deep learning belongs to the field of computer vision technology. This method mainly uses retinanet detection network. RetinaNet is essentially a network structure composed of resnet+FPN+two FCN subnetworks. Here I use ResNeXt50 and Densenet169 instead of resnet. The FPN layer and loss loss function of retnanet network are modified. Finally, the model is fused. The target detection method combines the advantages of the current mainstream target detection methods, and has solved a series of practical problems. The algorithm is tested in coco 2017, and its performance is very good. It is better than the single model under retinanet and the model without improvement. In addition, it has good performance on other data sets.

【技术实现步骤摘要】
一种基于深度学习的目标区域检测方法
本专利技术属于计算机视觉
,主要为深度学习图像检测方法的改进,涉及一些传统图像处理。
技术介绍
随着人工智能的发展,计算机视觉的应用同样得到蓬勃的发展。在计算机视觉应用中,图像检测是重要的分支,图像目标检测在人脸识别,无人驾驶,无人零售,智能医疗等领域具有重要意义。图像目标检测是计算机视觉中一个重要的研究方向,随着深度学习的发展,目标检测技术取得了非常大的进步。目标检测对于人类来说并不困难,通过对图片中不同颜色模块的感知很容易定位并分类出其中目标物体,但对于计算机来说,面对的是RGB像素矩阵,很难从图像中直接得到狗和猫这样的抽象概念并定位其位置,再加上有时候多个物体和杂乱的背景混杂在一起,目标检测更加困难。目标检测要解决的核心问题是:1.目标可能出现在图像的任何位置。2.目标有各种不同的大小。3.目标可能有各种不同的形状。为解决以上问题,深度学习目标检测领域出现了两个分支,双阶段和单阶段。双阶段模型中一个阶段提出备选框,一个阶段对备选框进行判断。主要为RCNN系列的网络,RCNN,FasterRCNN,MaskRCNN。单阶段的网络,整个生成本文档来自技高网...

【技术保护点】
1.一种基于深度学习的目标区域检测方法,其特征在于,包括以下步骤:步骤1、获取带有标注的图像数据集,并对数据进行分析;步骤2、利用传统图像增强技术,对所有正样本的数据进行预处理,以此增加样本的数量,以及丰富数据集的内容;步骤3、用retiannet网络对经过预处理的正样本进行训练;步骤4、采用ResNeXt50或者DenseNet进行模型检测,两个模型检测的结果进行模型融合;对所有的预测框进行NMS非极大值抑制;IOU阈值设置为0.7;IOU的值就是两个预测框的交集除以两个预测框的并集的值;NMS就是对所有的框进行一一比较,如果两个框的交集大于IOU设置的阈值,则保留得分最大的框,删除另外的框...

【技术特征摘要】
1.一种基于深度学习的目标区域检测方法,其特征在于,包括以下步骤:步骤1、获取带有标注的图像数据集,并对数据进行分析;步骤2、利用传统图像增强技术,对所有正样本的数据进行预处理,以此增加样本的数量,以及丰富数据集的内容;步骤3、用retiannet网络对经过预处理的正样本进行训练;步骤4、采用ResNeXt50或者DenseNet进行模型检测,两个模型检测的结果进行模型融合;对所有的预测框进行NMS非极大值抑制;IOU阈值设置为0.7;IOU的值就是两个预测框的交集除以两个预测框的并集的值;NMS就是对所有的框进行一一比较,如果两个框的交集大于IOU设置的阈值,则保留得分最大的框,删除另外的框。2.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于,模型backbone的改动:ResNeXt具体如下:通过网络拆分,4个卷积核一组,32个path的输出向量按照pixel-wise求和即所有通道对应位置点相加,然后再与输入的featuremap相加;DenseNet的模块结构具体如下:让网络中的每一层都直接与其前面层相连,实现特征的重复利用;同时把网络的每一层只学习一个特征图。3.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于,模型FPN结构的改动:自底向上其实就是网络的前向过程;在前向过程中,featuremap的大小在经过某些层后会改变,而在经过其他一些层的时候不会改变,将不改变featuremap大小的层归为一个stage,因此每次抽取的特征都是每个stage的最后一个层输出,这样就能构成特征金字塔;自顶向下的过程采用上采样进行,而横向连接则是将上采样的结果和自底向上生成的相同大小的featuremap进行融合;在融合之后还会再采用3*3的卷积核对每个融合结果进行卷积,生成的featuremap结果是P2,P3,P4,P5,和原来自底向上的卷积结果C2,C3,C4,C5一一对应;对于P3,P4,P5,P6,P7这些层,定义anchor的大小为64*64,128*128,256*256,512*512,1024*1024,另外每个scale层都有3个长宽对比度:1:2,1:1,2:1;所以整个特征金字塔有3*5=15种anchor;网络的P3,P4,P5,P6,P7下面分别跟了两个分支,分类和回归;P3,P4,P5,P6,P7下面跟的分类和回归是相同的;这里传进来了一个50*50*2048的特征向量,其中卷积核为2048;卷积设计成3个卷积融合的形式,其中从左到右依次用的为1*3*12,3*3*12和3*1*12的卷积,这样卷积融合后总的卷积核数仍然为36。4.根据权利要求1所述的一种基于深度学习的目标区域检测方法,其特征在于,增加损失函数:FocalLoss通过调整loss的计算公式FL(pt)=-αt(1-pt)γlog(pt);...

【专利技术属性】
技术研发人员:张涛郝兵冯宇婷
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1