【技术实现步骤摘要】
一种基于改进Faster R
‑
CNN的目标检测算法
[0001]
:本专利技术涉及了一种基于改进Faster R
‑
CNN的目标检测算法,属于数字图像处理
[0002]技术背景:目标检测可以理解为针对多个目标的目标定位和图像分类。它的研究对于安防领域的人脸识别和智能视频分析、交通领域的交通场景识别、医学领域的图像识别等领域具有重要意义。在目标检测模型方面,Faster R
‑
CNN模型是最具代表性的目标检测模型。因为它是第一个真正意义上的端到端的深度学习目标检测算法,也是第一个准实时的深度学习目标检测算法。
[0003]作为Fast R
‑
CNN(Fast Region based Convolutional Neural Networks)模型的升级版本,我们可以将Faster R
‑
CNN模型简单地看成RPN+Fast R
‑
CNN的模型,且RPN(Region Proposal Network)和Fast R
‑
CNN共享一部分卷积层。Faster R
‑
CNN模型对目标图像的检测过程是:首先将图片输入到模型中,然后利用模型的卷积神经网络对该图片进行特征提取,在Faster R
‑
CNN中,这部分卷积网络被称为基础卷积网络,接着将基础卷积网络的顶层特征图送入RPN,目的就是从目标图像中提取建议框,然后将RPN的关于预测前景与背景两个分类的数值以及四个边 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进Faster R
‑
CNN的目标检测算法,其特征在于:为丰富顶层特征图的特征进而在原模型的基础上引入了残差连接并在4个池化层前依次加入空洞率rate为2、3、5和7的空洞卷积,为保证生成的特征图尺寸大小与未卷积前的特征图一致,在Padding的设置上需做到与rate的值相同,因为对于步长为1、大小为3
×
3、空洞率为1的卷积核来说,若要对一个大小为7
×
7的特征图进行特征提取的同时,还要生成大小为7
×
7的特征图,这时必须将Padding设为1;当用空洞率为2、大小为3
×
3的卷积核时,等同于用大小为5
×
5的卷积核进行卷积,同样为生成大小为7
×
7的特征图,须将Padding设为2;rate为3、5和7亦然;其中在改进模型的第一部分中共包含两个模块,并在最大池化层前加入空洞卷积;为实现addition层的运算,除空洞卷积外的其它卷积的Padding设为Same;/3
×
3表示卷积核的大小为3
×
3;conv.16代表卷积核的个数为16,其它亦然;s1表示步长为1,s2表示步长为2;在以上模块中,添加BN(Batch
‑ꢀ
Normalization)层的目的是为了提高网络模型的收敛速度和泛化能力;同时将原Faster R
‑
CNN模型的激活函数ReLU替换为LeakyReLU,相较ReLU,LeakyReLU在一定程度上避免了负半轴神经元衰亡的现象发生。2.根据权利要求1所述的一种基于改进Faster R
‑
CNN的目标检测算法,其特征在于:在对原模型作出改进的第二部分模块中,用多尺度特征提取与融合的方法对第一部分模块的顶层特征图再次进行不同尺度的特征提取;在多尺度特征提取的基础上依据感受野相同的理论将卷积核进行等价,具体就是用几个3
×
3卷积核去替代5
×
5卷积核和7
×
7卷积核,这样做可以在3
×
3的卷积核之间增加更多的非线性激活函数进而提高模型的泛化能力;最后运用生物视觉系统的稀疏性对以上网络结构进行优化,具体就是将3
×
3的卷积核进行拆分。3.根据权利要求1所述的一种基于改进Faster R
‑
CNN的目标检测算法,其特征在于:在对原模型作出改进的第三部分模块中引入了生物视觉的注意力机制,对于高等生物尤其是人类来说,注意力机制有着相当重要的作用,因为从信息的角度来看,它能够在极短的时间内将重要信息和次要信息区分开来;从能量的角度来看,它能够使生物视觉规避在次要信息中的能量消耗,进而将有限的能量与精力分配给重要信息;F代表特征图,M代表通过Softmax函数从特征图F中学习到的注意力图,...
【专利技术属性】
技术研发人员:朱奎锋,史涛,韩明轩,苏艳杰,
申请(专利权)人:天津福莱迪科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。