一种基于特征金字塔网络和注意力机制的目标检测改进算法制造技术

技术编号:26304959 阅读:73 留言:0更新日期:2020-11-10 20:01
本发明专利技术公开了一种基于特征金字塔网络和注意力机制的目标检测改进算法,该方法通过结合特征金字塔网络的原理,对原始SSD算法中基础网络提取出的6个多尺度特征图进行融合,融合后形成的新特征图中同时包含有丰富的上下文信息,以提高检测能力;并对融合后的特征图添加注意力模型,有效提取出小目标的特征信息。改善了漏检的情况,提高了算法的鲁棒性,同时在检测速度方面仍满足实时性的要求。

【技术实现步骤摘要】
一种基于特征金字塔网络和注意力机制的目标检测改进算法
本专利技术属于数字图像处理领域,涉及目标检测,特别涉及一种基于特征金字塔网络和注意力机制的目标检测改进算法。
技术介绍
目标检测的任务是找出图像中的感兴趣目标,确定它们的类别和位置,是计算机视觉领域的核心问题之一,在红外探测技术,智能视频监控,遥感影像目标检测,医疗诊断以及智能建筑中的火灾、烟雾检测中都有广泛应用。目标检测算法可以分为传统目标检测算法和基于深度学习的目标检测算法;传统目标检测算法代表算法有SIFT算法和V-J检测算法等,但该种方法时间复杂度高,且没有很好的鲁棒性。基于深度学习的目标检测算法,经典算法有R-CNN算法,FastR-CNN算法,FasterR-CNN算法,YOLO算法,SSD算法等。虽然现阶段有很多优秀的目标检测算法,但检测性能仍有很多不足,从而导致出现漏检、误检等问题。
技术实现思路
针对上述现有技术存在的缺陷或不足,本专利技术的目的在于,提供一种基于特征金字塔网络和注意力机制的目标检测改进算法。为了实现上述任务,本专利技术采取如下的技术解决方案:一种基于特征金字塔网络和注意力机制的目标检测改进算法,其特征在于,包括以下步骤:步骤1)结合特征金字塔网络的原理,对原始SSD算法中,基础网络VGG-16提取出输入图像的6个多尺度特征图,按自小而大的顺序进行特征融合;得到融合不同层的特征图,且融合后的特征图同时包含有丰富的语义信息和细节信息;其中,所述原始SSD算法中,经过基础网络VGG-16对输入图像提取出的特征图尺度是从大到小依次递减的,其中底层特征图分辨率较大,含有更多细节信息,高层特征图分辨率较小,包含更多抽象的语义信息,因此,原始SSD算法将底层特征图用于对小目标进行检测,高层特征图用于对中、大目标进行检测;步骤2)引入通道注意力机制,对特征融合后其中拥有更加丰富的细节信息和语义信息,同时对小目标检测更加敏感的两个特征图添加注意力模型;即通过对特征图添加掩码(mask)来实现注意力机制,将感兴趣区域的特征标识出来,通过网络的不断训练,让网络学习到每一张图像中需要重点关注的感兴趣区域,抑制其他干扰区域带来的影响,从而增强算法对小目标物体的检测能力。根据本专利技术,步骤1)中所述输入图像尺寸为300×300,经过基础网络VGG-16后得到的用于检测的特征图尺寸分别为38×38、19×19、10×10、5×5、3×3、1×1。按特征金字塔网络的原理,对特征图按照尺寸从小到大的顺序,依次进行特征融合,得到尺寸大小仍为38×38、19×19、10×10、5×5、3×3、1×1的6个特征图。进一步地,步骤2)中对步骤1)中按特征金字塔原理融合后的特征图,添加注意力模型,因为融合过程是按照特征图尺寸从小到大的顺序进行的,因此融合后信息最丰富的特征图为(38,38),(19,19)两个特征图这两个特征图相比其他特征图,拥有更加丰富的细节信息和语义信息,同时对小目标检测更加敏感;且为了保持算法的检测速度,减少算法的计算量,故只对融合后的(38,38),(19,19)这两个特征图添加注意力模型,具体的检测算法过程如下:a)基于单阶段网络模型的目标检测,利用回归的思想,直接通过一个卷积神经网络在输入图像上回归出目标的类别及边框。首先结合特征金字塔网络的原理,对原始SSD算法提取出的多尺度特征图按照尺寸从小到大的顺序,依次进行特征融合;原始SSD算法由基础网络VGG-16提取出的多尺度特征图,尺寸大小分别为38×38、19×19、10×10、5×5、3×3、1×1,按照特征金字塔网络的原理,按照尺寸从小到大的顺序,进行特征融合,融合得到6个尺寸为38×38、19×19、10×10、5×5、3×3、1×1的特征图,这些特征图都包含有丰富的语义信息和细节信息。b)结合注意力机制的原理,引入了通道注意力,对进行特征融合后的特征图添加注意力模型;对1a)中经过特征融合后的特征图添加注意力模型,由于融合后38×38、19×19两个特征图中包含有最丰富的信息,且为了保持算法的实时性,因此只对这两个特征图添加注意力模型。c)由步骤a)和b)中得到的6个多尺度特征图,在每个单元都要设置不同尺寸、长宽比的候选框,对于候选框的尺度,按如下公式(1)进行计算:其中,m代表特征层的个数;sk表示候选框与图片的比例;smax和smin代表比例的最大值和最小值,分别取值为0.9和0.2;利用上述公式(1)得到各个候选框的尺度;对于长宽比,一般取值为且按照如下公式(2)对候选框的宽度及高度进行计算:对于宽高比为1的候选框,还增加一个尺度为的候选框,候选框的中心坐标为其中|fk|代表特征层的大小;d)使用3×3的卷积核通过卷积操作对多尺度特征图的类别和置信度进行检测,并对目标检测算法进行训练;模型训练时损失函数定义为位置损失(localizationloss,loc)和置信度损失(confidenceloss,conf)的加权和,计算公式如下:式中,N为匹配的候选框的数量;x∈{1,0}表示候选框是否与真实框匹配,若匹配,则x=1,反之x=0;c为类别置信度预测值;g为真实框的位置参数;l为预测框的位置预测值;α权重系数,设置为1。对于SSD中的位置损失函数,采用SmoothL1loss,对候选框的中心(cx,cy)及宽度(w)、高度(h)的偏移量进行回归。公式如下:对于SSD中的置信度损失函数,使用典型的softmaxloss,其公式为:本专利技术的基于特征金字塔网络和注意力机制的目标检测改进算法,以单阶段目标检测算法SSD算法为基础,考虑到特征图分辨率大小对目标检测性能的影响,对原算法进行改进,结合特征金字塔网络的思想,对原始SSD算法提取出的多尺度特征图进行融合,融合形成具有丰富语义信息和丰富细节信息的特征图;再结合注意力机制的原理,为融合后尺寸为38×38、19×19两个特征图添加注意力模型,以加强对小目标物体的识别效果。附图说明图1是结合特征金字塔网络和注意力机制的目标检测算法的网络结构示意图;图2是原始SSD算法与改进后的目标检测算法检测效果对比图片,其中,左侧的图a1、图a2、图a3、图a4和图a5均是原始SSD算法检测图片;右侧的图b1、图b2、图b3、图b4和图b5均是改进后目标检测算法检测图片。以下结合附图和实施例对本专利技术做进一步详细描述。具体实施方式本专利技术的基于特征金字塔网络和注意力机制的目标检测改进算法,采取的技术思路是,以单阶段目标检测算法SSD为基础,对SSD算法中不足进行分析,提出对SSD目标检测算法进行改进。集合特征金字塔网络的原理,对原始SSD算法提取出的6个特征图进行融合,融合形成新的特征图,同时具有丰富的语义信息和细节信息;然后对融合后的特征图添加注意力模型,但为了保持算法的实时性,只对包含信息最丰富,同时对小目本文档来自技高网...

【技术保护点】
1.一种基于特征金字塔网络和注意力机制的目标检测改进算法,其特征在于,包括以下步骤:/n步骤1)结合特征金字塔网络的原理,对原始SSD算法中,基础网络VGG-16对输入图像提取出的6个多尺度特征图,按自小而大的顺序进行特征融合;得到融合不同层的特征图,且融合后的特征图同时包含有丰富的语义信息和细节信息;/n其中,所述原始SSD算法中,经过基础网络VGG-16对输入图像提取出的特征图尺度是从大到小依次递减的,其中底层特征图分辨率较大,含有更多细节信息,高层特征图分辨率较小,包含更多抽象的语义信息,因此,原始SSD算法将底层特征图用于对小目标进行检测,高层特征图用于对中、大目标进行检测;/n步骤2)引入通道注意力机制,对特征融合后其中拥有更加丰富的细节信息和语义信息,同时对小目标检测更加敏感的两个特征图添加注意力模型;即通过对特征图添加掩码(mask)来实现注意力机制,将感兴趣区域的特征标识出来,通过网络的不断训练,让网络学习到每一张图像中需要重点关注的感兴趣区域,抑制其他干扰区域带来的影响,从而增强算法对小目标物体的检测能力。/n

【技术特征摘要】
1.一种基于特征金字塔网络和注意力机制的目标检测改进算法,其特征在于,包括以下步骤:
步骤1)结合特征金字塔网络的原理,对原始SSD算法中,基础网络VGG-16对输入图像提取出的6个多尺度特征图,按自小而大的顺序进行特征融合;得到融合不同层的特征图,且融合后的特征图同时包含有丰富的语义信息和细节信息;
其中,所述原始SSD算法中,经过基础网络VGG-16对输入图像提取出的特征图尺度是从大到小依次递减的,其中底层特征图分辨率较大,含有更多细节信息,高层特征图分辨率较小,包含更多抽象的语义信息,因此,原始SSD算法将底层特征图用于对小目标进行检测,高层特征图用于对中、大目标进行检测;
步骤2)引入通道注意力机制,对特征融合后其中拥有更加丰富的细节信息和语义信息,同时对小目标检测更加敏感的两个特征图添加注意力模型;即通过对特征图添加掩码(mask)来实现注意力机制,将感兴趣区域的特征标识出来,通过网络的不断训练,让网络学习到每一张图像中需要重点关注的感兴趣区域,抑制其他干扰区域带来的影响,从而增强算法对小目标物体的检测能力。


2.如权利要求1所述的算法,其特征在于,步骤1)中所述输入图像尺寸为300×300,经过基础网络VGG-16后得到的用于检测的特征图尺寸分别为38×38、19×19、10×10、5×5、3×3、1×1;按特征金字塔网络的原理,对用于检测的特征图按照尺寸从小到大的顺序,依次进行特征融合,得到特征图尺寸大小仍为38×38、19×19、10×10、5×5、3×3、1×1的6个特征图。


3.如权利要求1所述的算法,其特征在于,步骤2)中对步骤1)中按特征金字塔原理融合后的特征图,添加注意力模型,因为融合过程是按照特征图尺寸从小到大的顺序进行的,因此融合后信息最丰富的特征图为(38,38),(19,19)两个特征图,这两个特征图相比其他特征图,拥有更加丰富的细节信息和语义信息,同时对小目标检测更加敏感;且为了保持算法的检测速度,减少算法的计算量,故只对融合后的(38,38),(19,19)这两个特征图添加注意力模型,目标检测算法的检测过程如下:
a)基于单阶段网络模型的目标检测,利用回归的思想,直接通过一个卷积神经网络在输入图像上回归出目标的类别及边框。首先结合特征金字塔网络的原理,对原始SSD...

【专利技术属性】
技术研发人员:王燕妮刘祥翟会杰余丽仙孙雪松
申请(专利权)人:西安建筑科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1