一种自适应特征及数据分布的目标检测方法技术

技术编号:26067258 阅读:27 留言:0更新日期:2020-10-28 16:40
一种自适应特征及数据分布的目标检测方法,本发明专利技术涉及计算机视觉技术领域。本发明专利技术的目的是提供一种自适应特征及数据分布的目标检测方法,它可以自动选择某些层的某些参数作为特征图进行目标检测,有效减少冗余的参数,节省对网络进行优化的时间。本发明专利技术实现的方法步骤为:1)输入图像采用宽度w为416像素、高度h为416像素、通道数c为3;2)减小尺寸增加通道数模块运算;3)2路密集连接模块运算;4)生成特征图;5)对各个通道权重的学习、计算和重新筛选;6)目标位置及类别的回归。

【技术实现步骤摘要】
一种自适应特征及数据分布的目标检测方法
本专利技术涉及计算机视觉
,特别是自适应特征及数据分布的目标检测方法DenseAttentionNetwork。
技术介绍
在计算机视觉领域,卷积神经网络被广泛使用。尤其是2012年AlexNet在ImageNet竞赛中以超过第二名10.9个百分点的优势夺得冠军之后,卷积神经网络在计算机视觉领域的应用更加广泛,AlexNet同时也奠定了深度学习里程碑式的基础。来自于牛津大学的KarenSimonyan和AndrewZisserman于2014年提出了VGG-Nets,在2014年ImageNet竞赛中取得了定位任务的第一名和分类任务第二名的优秀结果。VGG-Nets展示了可以在先前网络架构的基础上通过增加网络层数和深度来提高网络的性能。VGG-Nets包含16-19层权重网络,比先前的网络架构更深层数更多。当然除了更深的层数之外,卷积层使用更小的filter尺寸和间隔,这样做不但减少了参数量,而且增加了网络的非线性表达能力。GoogLeNet在2014年击败所有对手,成为ImageNet分类任务的冠军。它跟AlexNet,VGG-Nets这种单纯依靠加深网络结构进而改进网络性能的思路不一样,在加深网络的同时(22层),也在网络结构上做了创新,引入Inception结构代替了单纯的卷积激活的传统操作(这思路最早由NetworkinNetwork提出)。GoogLeNet进一步把对卷积神经网络的研究推上新的高度。从AlexNet、VGG-Nets、GoogLeNet的发展可以看到,随着网络深度的增加,网络的准确度也应该逐步增加。但是网络深度增加的一个问题在于这些增加的层是参数更新的信号,因为梯度信息是从后向前传播的,增加网络深度后,比较靠前层的梯度就会很小,也就意味着这些层的学习基本上停滞了,也就是所谓的梯度消失。另一方面更深的网络意味着更大的参数空间,优化问题变得更难,一味的增加网络深度可能会造成更高的训练误差,网络出现退化。针对这些问题,何恺明团队在2015年推出了残差网络ResNet,并在当年的ISLVRC和COCO上横扫所有选手,获得冠军。ResNet的优点是更加容易优化,并能从网络层数的增加带来显著的精度提升,此网络也因152层的网络结构创造了新的模型记录。GaoHuang,ZhuangLiu,KilianQ.Weinberger和LaurensvanderMaaten于2016年提出了密集卷积神经网络DenseNet的概念,它吸收了ResNet的最精华的部分,并且做了更加创新的工作,使用密集链接,缓解梯度消失问题,加强特征传播,更加有效的利用特征,极大的减少了参数量。使得网络更深,参数量反而更少,在CIFAR指标上全面超越ResNet。2017年Momenta胡杰团队(WMW)提出的新的网络结构提出了Squeeze-and-ExcitationNetworks(简称SENet)。作者在文中将SENetblock插入到现有的多种分类网络中,都取得了不错的效果。作者的动机是显式地建模特征通道之间的相互依赖关系。另外,作者并未引入新的空间维度来进行特征通道间的融合,而是采用了一种全新的「特征重标定」策略。具体来说,就是通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。上述现有技术,依然存在的缺陷有:1、参数冗余虽然现有的网络结构越来越深,越来越宽,在一些公开数据集上也达到了一个不错的效果,但是这也带来了更多的参数。由于无法确定哪一层或者哪一些参数起到了关键作用,也无法确定某一层或某些参数是否真的被用到,这一定程度上造成了参数的冗余。2、针对实际任务的优化难度大现有网络的设计都是针对于比较复杂的数据集,这些数据集的类别比较多,但是在实际任务中可能并没有那么多的类别,数据也不一定特别复杂,目标的大小分布也相对比较集中。在保证网络精度的同时,为了减少网络的计算资源,通常的做法是减少一些层,但是无法确定减少哪些层才足够有效。必须通过大量的实验比较,此时会消耗掉大量的时间和精力。3、网络训练阶段无法自适应数据的分布现有网络大多设计有多个特征金字塔FPN,但是每个FPN的训练损失权重是相同的。实际任务中目标的大小分布往往是比较集中的,检出结果可能大多出自一个FPN,那么每个FPN的损失权重完全相同显然是不科学的。
技术实现思路
为了解决上述现有技术中存在的缺陷,本专利技术的目的是提供一种自适应特征及数据分布的目标检测方法。它可以自动选择某些层的某些参数作为特征图进行目标检测,有效减少冗余的参数,节省对网络进行优化的时间。为了达到上述专利技术目的,本专利技术的技术方案以如下方式实现:一种自适应特征及数据分布的目标检测方法,其方法步骤为:1)输入图像采用宽度w为416像素、高度h为416像素、通道数c为3。2)减小尺寸增加通道数模块运算DropRiseBlock:对输入图像进行降采样并增加通道数。3)2路密集连接模块运算2-waysDenseBlock:对图像分2路捕获不同尺寸的感受野信息,输出得到3x3和5x5的感受野。4)生成特征图FeatureMap:对输入图像先经过1个DropRiseBlock运算,然后再进行1个2-waysDenseBlock运算,再经过1个卷积并激活Convolution&Relu和最大池化MaxPooling运算,再经过2个2-waysDenseBlock运算,再经过1个Convolution&Relu和MaxPooling运算,再经过4个2-waysDenseBlock运算,再经过1个Convolution&Relu和MaxPooling运算,最后经过8个2-waysDenseBlock运算,最终生成13x13x1024的FeatureMap。5)对各个通道权重的学习、计算和重新筛选:给每个通道分配一个0~1的权重,每个通道的输入系数分别乘上对应权重得到对应输入。然后,根据各个通道权重的大小,将权重较小的通道丢弃,实现对通道的筛选。6)目标位置及类别的回归:使用多个特征金字塔FPN回归目标的位置、置信度和类别。在上述目标检测方法中,所述对输入图像进行降采样并增加通道数,此操作将输入宽度w变为104,高度h变为104,通道数c增加到32。在上述目标检测方法中,所述对图像分2路捕获不同尺寸的感受野信息的方法为,一路经过卷积核大小为1x1的卷积之后,再进行一层卷积核大小为3x3的卷积运算,另外一路则经过卷积核大小为1x1的卷积计算之后,再进行两层卷积核大小为3x3的卷积运算,两个大小为3步长为1的卷积核其感受野等于一个5x5卷积核的感受野。在上述目标检测方法中,所述生成特征图步骤中的Convolution&Relu模块卷积核的大小为1x1,通道数与前一层输出的通道数相本文档来自技高网
...

【技术保护点】
1.一种自适应特征及数据分布的目标检测方法,其方法步骤为:/n1)输入图像采用宽度w为416像素、高度h为416像素、通道数c为3;/n2)减小尺寸增加通道数模块运算:/n对输入图像进行降采样并增加通道数;/n3)2路密集连接模块运算:/n对图像分2路捕获不同尺寸的感受野信息,输出得到3x3和5x5的感受野;/n4)生成特征图:/n对输入图像先经过1个减小尺寸增加通道数模块运算,然后再进行1个2路密集连接模块运算,再经过1个卷积并激活和最大池化运算,再经过2个2路密集连接模块运算,再经过1个卷积并激活和最大池化运算,再经过4个2路密集连接模块运算,再经过1个卷积并激活和最大池化运算,最后经过8个2路密集连接模块运算,最终生成13x13x1024的特征图;/n5)对各个通道权重的学习、计算和重新筛选:/n给每个通道分配一个0~1的权重,每个通道的输入系数分别乘上对应权重得到对应输入;然后,根据各个通道权重的大小,将权重较小的通道丢弃,实现对通道的筛选;/n6)目标位置及类别的回归:/n使用多个特征金字塔回归目标的位置、置信度和类别。/n

【技术特征摘要】
1.一种自适应特征及数据分布的目标检测方法,其方法步骤为:
1)输入图像采用宽度w为416像素、高度h为416像素、通道数c为3;
2)减小尺寸增加通道数模块运算:
对输入图像进行降采样并增加通道数;
3)2路密集连接模块运算:
对图像分2路捕获不同尺寸的感受野信息,输出得到3x3和5x5的感受野;
4)生成特征图:
对输入图像先经过1个减小尺寸增加通道数模块运算,然后再进行1个2路密集连接模块运算,再经过1个卷积并激活和最大池化运算,再经过2个2路密集连接模块运算,再经过1个卷积并激活和最大池化运算,再经过4个2路密集连接模块运算,再经过1个卷积并激活和最大池化运算,最后经过8个2路密集连接模块运算,最终生成13x13x1024的特征图;
5)对各个通道权重的学习、计算和重新筛选:
给每个通道分配一个0~1的权重,每个通道的输入系数分别乘上对应权重得到对应输入;然后,根据各个通道权重的大小,将权重较小的通道丢弃,实现对通道的筛选;
6)目标位置及类别的回归:
使用多个特征金字塔回归目标的位置、置信度和类别。

【专利技术属性】
技术研发人员:黄志举王亚涛江龙魏世安郑全新张磊
申请(专利权)人:北京同方软件有限公司同方股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1