基于联合递归特征金字塔的多尺度目标检测方法技术

技术编号:36126914 阅读:38 留言:0更新日期:2022-12-28 14:34
本发明专利技术公开了一种基于联合递归特征金字塔的多尺度目标检测方法。主要解决现有技术在复杂场景下多尺度目标检测精度低的问题。其实现方案是:1)读取目标检测数据库数据,并对图像数据进行预处理;2)使用ResNet卷积神经网络作为主干网络提取图像的特征;3)根据所提取的图像特征构建特征金字塔;4)构建由通道注意力模块和空间注意力模块串联组成的联合反馈处理器;5)利用联合反馈处理器对各层金字塔特征进行处理,完成特征融合;6)重复步骤3)至步骤5)两次,得到多尺度特征;7)将多尺度特征输入到现有的检测头,完成多尺度检测。本发明专利技术显著提高了复杂场景下多尺度目标检测的精度,可用于智慧交通、智慧安防和遥感影像处理。智慧安防和遥感影像处理。智慧安防和遥感影像处理。

【技术实现步骤摘要】
基于联合递归特征金字塔的多尺度目标检测方法


[0001]本专利技术属于图像处理
,特别涉及一种基于循环特征的多尺度目标检测方法,可用于交通、安防及医疗等领域。

技术介绍

[0002]目标检测是计算机视觉领域的基本任务之一,其广泛应用于交通、安防、医疗等领域,具有极高的应用价值。目标检测的任务包含定位图像中目标的位置以及预测图像中目标的类别两项。其中,由于目标自身大小和距离相机远近的不同,目标呈现在图像中的尺度通常具有较大的差异,从而导致检测性能下降。
[0003]近年来,多尺度目标检测问题已经受到了广泛的关注。现有的算法采用构造特征金字塔的方法,即将主干网络中的特定层单独输出,通过下采样和特征融合的方式构造特征金字塔,得到高分辨率且语义信息丰富的特征。此外,一些学者通过为特征金字塔引入循环机制和为主干网络引入可切换空洞卷积来提高检测效果。
[0004]传统的特征金字塔结构中各层级之间的存在较大的语义差距,直接进行自上而下的下采样特征融合方式无法很好地将高层语义信息传递至低层,并且最高一层只有信息损失而没有更高一层的特征进行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于联合递归特征金字塔的多尺度目标检测方法,其特证在于,包括如下步骤:(1)读取目标检测数据库数据,对训练数据的图像依次进行调整、翻转和归一化,对测试数据的图像依次进行调整和归一化,并设置RGB三个通道的归一化均值和标准差,最终得到图像对应的张量数据;(2)使用包括有5个串联卷积块的ResNet卷积神经网络作为主干网络,将经过(1)预处理后的图像张量数据输入到该卷积神经网络,得到通过5个卷积块分别提取的图像特征,分别记为C1,C2,C3,C4和C5;(3)根据ResNet卷积神经网络所提取的图像特征,构建特征金字塔:3a)将ResNet卷积神经网络提取出来的图像特征C2,C3,C4和C5分别经过4个核大小为1
×
1,步长为1的卷积层,使得C2特征的通道数依然保持为256,C3特征的通道数由512下降至256,C4特征的通道数由1024下降至256,C5特征的通道数由2048下降至256,最终得到4层主干降维特征C2

,C3

,C4

和C5

;3b)将3a)所得的各层主干降维特征执行自顶向下的特征融合操作,形成由P2、P3、P4和P5金字塔特征组成的特征金字塔结构;(4)构建由通道注意力模块和空间注意力模块串联组成的联合反馈处理器;(5)利用联合反馈处理器对步骤(3)所得各层金字塔特征进行处理,完成特征融合:5a)将P2,P3,P4和P5这4层金字塔特征输入到通道注意力模块,得到通道注意力特征M
C
;5b)将5a)得到的通道注意力特征M
C
输入空间注意力模块,得到空间注意力特征M
S
;5c)将空间注意力特征M
S
拆分为4个特征图,并将这4个特征图分别下采样至与主干网络各卷积块输出特征C
i
尺寸相同;5d)将上采样后的特征图分别输入到4个核大小为1
×
1,步长为1的卷积层,将通道数分别提升至256,512,1024和2048,得到与主干网络待融合的特征图M
i
,再将各特征图M
i
与主干网络各卷积块输出特征C
i
对应相加完成特征融合;(6)重复步骤(3)至步骤(5)两次,得到最终的多尺度特征P2

,P3

,P4

和P5

,将其输入到现有的检测头网络,输出预测的目标位置参数(x,y,w,h)以及目标相应类别的置信度c,其中,(x,y)为目标边界框左上角在图像中的坐标,w为目标边界框的宽度,h为目标边界框的高度,完成对多尺度目标的检测。2.根据权利要求1所述的方法,其特征在于,步骤(1)中对训练阶段和测试阶段的图像依次进行调整、翻转、归一化,并设置RGB三个通道的均值和标准差,实现如下:1a)训练阶段的数据预处理:将输入图像的尺寸缩放至800
×
800,并以0.5的概率随机调整图像的亮度、对比度、饱和度和色调;再以0.5的概率随机翻转,并采用均值标准差归一的方法归一化图像;设置RGB三个通道的归一化均值分别为[123.675,116.28,103.53],设置三个通道的标准差分别为[58.395,57.12,57.375],最终得到该阶段图像对应的张量数据;1b)测试阶段的数据预处理:将输入图像的尺寸缩放至800
×
800,再采用均值标准差归一的方法归一化图像;设置RGB三个通道的归一化均值分别为[123.675,116.28,103.53],设置三个通道的标准差分别为[58.395,57.12,57.375],最终得到该阶段的图像对应张量数据。
3.根据权利要求1所述的方法,其特征在于,步骤(2)中的ResNet卷积神经网络的5个串联的卷积块,结构相同,每一个卷积块包含若干组卷积组,每一组卷积组包含一个卷积层、一个批归一化层和一个ReLu激活函数。4.根据权利要求1所述的方法,其特征在于,步骤(3b)中将3a)所得的各层特征执行自顶向下的特征融合操作,实现如下:3b1)将最高层主干降维特征C5

记为最高层金字塔特征P5,将P5做2倍上采样操作后与次高层主干降维特征C4

直接相加...

【专利技术属性】
技术研发人员:韩冰陈玮铭高新波杨铮黄晓悦
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1