一种基于改进FasterR-CNN的目标检测算法制造技术

技术编号:34766401 阅读:20 留言:0更新日期:2022-08-31 19:18
本发明专利技术涉及了一种基于改进Faster R

【技术实现步骤摘要】
一种基于改进Faster R

CNN的目标检测算法
[0001]
:本专利技术涉及了一种基于改进Faster R

CNN的目标检测算法,属于数字图像处理

[0002]技术背景:目标检测可以理解为针对多个目标的目标定位和图像分类。它的研究对于安防领域的人脸识别和智能视频分析、交通领域的交通场景识别、医学领域的图像识别等领域具有重要意义。在目标检测模型方面,Faster R

CNN模型是最具代表性的目标检测模型。因为它是第一个真正意义上的端到端的深度学习目标检测算法,也是第一个准实时的深度学习目标检测算法。
[0003]作为Fast R

CNN(Fast Region based Convolutional Neural Networks)模型的升级版本,我们可以将Faster R

CNN模型简单地看成RPN+Fast R

CNN的模型,且RPN(Region Proposal Network)和Fast R

CNN共享一部分卷积层。Faster R

CNN模型对目标图像的检测过程是:首先将图片输入到模型中,然后利用模型的卷积神经网络对该图片进行特征提取,在Faster R

CNN中,这部分卷积网络被称为基础卷积网络,接着将基础卷积网络的顶层特征图送入RPN,目的就是从目标图像中提取建议框,然后将RPN的关于预测前景与背景两个分类的数值以及四个边界回归值的输出再输入到RoI(Region of Interest)池化层,RoI的具体原理就是利用max pooling的方式从基础卷积网络的顶层特征图中得到目标图像的推荐区,最后将RoI输入到全连接层,然后通过边界框预测层和Softmax层分别得到具体类别和边界框,当然以上过程是对于已经训练好的网络而言的。
[0004]在之前的研究中,汪常建等人针对该模型检测尺度单一和特征信息利用率低的问题,在传统FPN(Feature Pyramid Network)网络结构的基础上增加了反向的特征融合过程;张毅等人依据绝大多数交通标志是圆形、正方形和三角形的特点,重新设计了RPN网络的锚盒;CHENG等人运用了将目标图像的灰度图和其在二维速度场相结合的方法;ZHANG等人运用背景差分法实现目标检测,具体就是建立图像的背景模板,通过检测当前图像帧与背景模板之间的差分得到当前场景下的目标检测;SUN等人运用方向梯度直方图、局部纹理特征的方法将提取的特征传输至支持向量机进行目标检测;范宜标等人利用激光点云与图像信息融合进而实现交通标志的检测。LIU等人在原模型中加入多尺度融合方法,利用不同大小的卷积核来提取感受野不同的特征;尽管以上文献所提到的针对Faster R

CNN模型在图像目标的检测方面的改进上都已经取得了较好的效果,但在网络结构的改进方面仍有进一步探究的必要。
[0005]相关的专利如申请公布号CN112084886B的专利技术专利公开了一种提升检测神经网络目标检测性能的方法及装置,通过对应输入尺度的目标检测神经网络算法对前述检测输入图像进行检测,降低了监控边缘计算设备上目标检测算法的算力和带宽需求,优化了目标检测距离和检测准确率。申请公布号CN109272467B专利技术专利公开了一种基于多尺度边缘线索的层次化图像分割方法,对输入图像进行多尺度的内容风格分离,从而提取图像的内容部件,并采用动态规划方法求解能量函数从而优化层次合并树结构,实现图像的层次化
分割。申请公布号CN111915566B的专利技术专利公开了一种基于循环一致对抗网络的红外样本目标检测方法,使用经过红外图像细节增强的数据集对调整过后的图像生成网络进行训练,将通过图像生成网络模型得到的可见光图像输入目标检测模型进行目标检测。但是,以上专利并没有涉及基于改进Faster R

CNN的目标检测算法。
[0006]
技术实现思路
:一种基于改进Faster R

CNN的目标检测算法,为丰富顶层特征图的特征进而在原模型的基础上引入了残差连接并在4个池化层前依次加入空洞率rate为2、3、5和7的空洞卷积,为保证生成的特征图尺寸大小与未卷积前的特征图一致,在Padding的设置上需做到与rate的值相同,因为对于步长为1、大小为3
×
3、空洞率为1的卷积核来说,若要对一个大小为7
×
7的特征图进行特征提取的同时,还要生成大小为7
×
7的特征图,这时必须将Padding设为1;当用空洞率为2、大小为3
×
3的卷积核时,等同于用大小为5
×
5的卷积核进行卷积,同样为生成大小为7
×
7的特征图,须将Padding设为2;rate为3、5和7亦然;其中在改进模型的第一部分中共包含两个模块,并在最大池化层前加入空洞卷积;其中需要说明的是:为实现addition层的运算,除空洞卷积外的其它卷积的Padding设为Same;/3
×
3表示卷积核的大小为3
×
3;conv.16代表卷积核的个数为16,其它亦然;s1表示步长为1,s2表示步长为2;在以上模块中,添加BN(Batch
‑ꢀ
Normalization)层的目的是为了提高网络模型的收敛速度和泛化能力;同时将原Faster R

CNN模型的激活函数ReLU替换为LeakyReLU,相较ReLU,LeakyReLU在一定程度上避免了负半轴神经元衰亡的现象发生。
[0007]其中,在对原模型作出改进的第二部分模块中,用多尺度特征提取与融合的方法对第一部分模块的顶层特征图再次进行不同尺度的特征提取;在多尺度特征提取的基础上依据感受野相同的理论将卷积核进行等价,具体就是用几个3
×
3卷积核去替代5
×
5卷积核和7
×
7卷积核,这样做可以在3
×
3的卷积核之间增加更多的非线性激活函数进而提高模型的泛化能力;最后运用生物视觉系统的稀疏性对以上网络结构进行优化,具体就是将3
×
3的卷积核进行拆分。
[0008]其中,在对原模型作出改进的第三部分模块中引入了生物视觉的注意力机制,对于高等生物尤其是人类来说,注意力机制有着相当重要的作用,因为从信息的角度来看,它能够在极短的时间内将重要信息和次要信息区分开来;从能量的角度来看,它能够使生物视觉规避在次要信息中的能量消耗,进而将有限的能量与精力分配给重要信息;F代表特征图,M代表通过Softmax函数从特征图F中学习到的注意力图,G代表通过将特征图F和注意力图M相对应的通道的值求哈达玛积进而得到的注意力特征图;该模型的主要作用就是在模型的训练过程中,依据图像标签及目标函数,通过Softmax函数使M中的图像目标的期望区域数值相对F较大一些,然后通过求哈达玛积本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进Faster R

CNN的目标检测算法,其特征在于:为丰富顶层特征图的特征进而在原模型的基础上引入了残差连接并在4个池化层前依次加入空洞率rate为2、3、5和7的空洞卷积,为保证生成的特征图尺寸大小与未卷积前的特征图一致,在Padding的设置上需做到与rate的值相同,因为对于步长为1、大小为3
×
3、空洞率为1的卷积核来说,若要对一个大小为7
×
7的特征图进行特征提取的同时,还要生成大小为7
×
7的特征图,这时必须将Padding设为1;当用空洞率为2、大小为3
×
3的卷积核时,等同于用大小为5
×
5的卷积核进行卷积,同样为生成大小为7
×
7的特征图,须将Padding设为2;rate为3、5和7亦然;其中在改进模型的第一部分中共包含两个模块,并在最大池化层前加入空洞卷积;为实现addition层的运算,除空洞卷积外的其它卷积的Padding设为Same;/3
×
3表示卷积核的大小为3
×
3;conv.16代表卷积核的个数为16,其它亦然;s1表示步长为1,s2表示步长为2;在以上模块中,添加BN(Batch
‑ꢀ
Normalization)层的目的是为了提高网络模型的收敛速度和泛化能力;同时将原Faster R

CNN模型的激活函数ReLU替换为LeakyReLU,相较ReLU,LeakyReLU在一定程度上避免了负半轴神经元衰亡的现象发生。2.根据权利要求1所述的一种基于改进Faster R

CNN的目标检测算法,其特征在于:在对原模型作出改进的第二部分模块中,用多尺度特征提取与融合的方法对第一部分模块的顶层特征图再次进行不同尺度的特征提取;在多尺度特征提取的基础上依据感受野相同的理论将卷积核进行等价,具体就是用几个3
×
3卷积核去替代5
×
5卷积核和7
×
7卷积核,这样做可以在3
×
3的卷积核之间增加更多的非线性激活函数进而提高模型的泛化能力;最后运用生物视觉系统的稀疏性对以上网络结构进行优化,具体就是将3
×
3的卷积核进行拆分。3.根据权利要求1所述的一种基于改进Faster R

CNN的目标检测算法,其特征在于:在对原模型作出改进的第三部分模块中引入了生物视觉的注意力机制,对于高等生物尤其是人类来说,注意力机制有着相当重要的作用,因为从信息的角度来看,它能够在极短的时间内将重要信息和次要信息区分开来;从能量的角度来看,它能够使生物视觉规避在次要信息中的能量消耗,进而将有限的能量与精力分配给重要信息;F代表特征图,M代表通过Softmax函数从特征图F中学习到的注意力图,...

【专利技术属性】
技术研发人员:朱奎锋史涛韩明轩苏艳杰
申请(专利权)人:天津福莱迪科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1