一种基于改进的多尺度残差网络的行人检测方法技术

技术编号:33040260 阅读:8 留言:0更新日期:2022-04-15 09:20
本发明专利技术涉及一种基于改进的多尺度残差网络的行人检测方法,其首先对输入图像进行多层卷积网络的特征提取,以多尺度方式拆分和拼接特征图,大大提高了网络对行人的多尺度表达能力。其次,通过充分融合高低层的行人特征来提升对多尺度行人的检测精度;然后,将融合后的特征图通过检测头,生成中心点特征图、尺度特征图和中心点偏移量特征图,将特征图解译为检测结果;最后输出带有边界框的行人。本发明专利技术的主干网络包含不同数量和不同组合的感受野,有效促进了网络对多尺度行人特征的提取,显著提高对不同大小的行人的检测性能。高对不同大小的行人的检测性能。高对不同大小的行人的检测性能。

【技术实现步骤摘要】
一种基于改进的多尺度残差网络的行人检测方法


[0001]本专利技术涉及行人检测领域,具体涉及一种基于改进的多尺度残差网络的行人检测方法。

技术介绍

[0002]行人检测是计算机视觉领域经典的问题之一,具有十分广泛的应用,例如智能机器人,自动驾驶和视频监控等。由于行人自身的差异性和行人到摄像头的距离不同,导致图像或视频中的行人尺度变化不一,对多尺度行人的检测仍然是一项极具挑战的任务。近年来很多基于深度学习的行人检测算法相继被提出。这些方法按照是否使用了候选框可以大致分为两大类:一类是使用候选锚框的行人检测算法,这类方法存在一定的局限性,比如它们需要设定锚框的尺度和长宽比等较难设定的超参数,这样做会影响检测性能。虽然可以通过使用更多不同尺度和长宽比的锚框达到更好的检测效果,但是需要从输入图像中密集提取大量候选框作为训练样本,这些样本大部分被标记为负样本,这样导致的正负样本不平衡问题同样会影响检测性能。另一类是不需要候选锚框的行人检测算法,即通过卷积网络直接从图像中检测行人。但是已有的无锚的行人检测方法,其特征表示的尺度较为单一,网络层的感受野范围也有较大的限制,针对行人检测中具有挑战性的尺度变化问题,还有进一步的提升空间。
[0003]目前的行人检测方法先通过主干网络进行行人特征的提取,然后通过检测器检测输入图像或视频中行人的位置和大小。由于行人自身的差异和行人到摄像头的距离不同,行人的尺度变化不一。此外,已有的检测方法仅通过将多尺度特征加权平均或级联融合来实现不同尺度特征信息融合,多尺度的行人无法得到有效的描述,影响检测性能。

技术实现思路

[0004]针对现有技术存在的问题,本专利技术的目的在于提供一种基于改进的多尺度残差网络的行人检测方法,以解决行人检测中的多尺度变化问题。
[0005]为实现上述目的,本专利技术采用的技术方案是:
[0006]一种基于改进的多尺度残差网络的行人检测方法,其包括以下步骤:
[0007]步骤1、输入图像,并将输入图像通过多尺度残差网络进行特征提取;
[0008]多尺度残差网络包括stem模块、以及第一阶段、第二阶段、第三阶段和第四阶段,其中第一阶段包括三个Res2NeXt*模块,第二阶段包括四个Res2NeXt*模块,第三阶段包括六个Res2NeXt*模块,第四阶段包括三个Res2NeXt*模块;
[0009]输入图像经过stem模块处理后依次进入第一阶段~第四阶段,相应地生成多个具有不同分辨率的特征图,将其定义为:
[0010]Φ
i
=f
i

i
‑1)=f
i
(f
i
‑1(

f2(f1(I))))
[0011]其中,Φ
i
代表网络第i层输出的特征图;
[0012]所述Res2NeXt*模块在瓶颈块中以一个3
×
3卷积核组代替ResNeXt 模块中一个单
独的3
×
3卷积核;在1
×
1卷积核后,特征图被均匀地分成s个子特征图,用x
i
表示,其中,i∈{1,2,

,s};每个x
i
经过一个3
×
3 卷积核,输出用K
i
()表示,并把K
i
()的输出记为y
i
;子特征图x
i
与K
i
‑1的输出相加,然后输入到K
i
(),因此,y
i
可以被表示为:
[0013][0014]由此可得,每个3
×
3卷积核K
i
()都可以潜在地从其他所有子特征图 x
j
中接收到特征信息,其中,{x
j
,j≤i};
[0015]步骤2、对高低层特征进行特征融合;
[0016]将第二阶段、第三阶段和第四阶段输出的多尺度特征图Φ2,Φ3,Φ4进行了L2归一化和反卷积处理,将它们的分辨率上采样到和Φ1的大小一致,然后将经过处理后的特征图拼接起来,得到用于检测头的特征图;
[0017]步骤3、利用检测头将特征图解译为检测结果;
[0018]在拼接的特征图后添加一个检测头对其进行检测;用于检测的特征图进入检测头后首先经过一个3
×
3卷积核,然后附加三个并列的1
×
1 卷积核,分别生成行人中心点特征图、行人尺度特征图和中心点偏移量特征图;然后,根据中心点特征图和尺度特征图中相应的尺度自动生成输入图像的行人候选框;最后,通过中心点偏移量预测对行人中心点的位置进行微调;
[0019]由此,行人检测可以表示为:
[0020]Dets=H(Φ
det
)={cls(Φ
det
),regr(Φ
det
)}
ꢀꢀꢀ
(3)
[0021]其中,H(.)代表检测头,Φ
det
代表用于检测的特征图;cls(.)为预测分类置信度,regr(.)为预测行人的尺度和中心点的偏移量。
[0022]所述步骤3中,采用了focalloss来训练检测头中行人中心点位置预测的目标函数L
center

[0023][0024]其中,
[0025][0026][0027]在上式中,p
ij
∈[0,1]是网络对于行人中心点位置的预测分布,y
ij
∈ [0,1]指定行人的中心点是否落在位置(i,j),y
ij
=1代表(i,j)是正样本的位置;γ和β是聚焦超参数;
[0028]对于尺度和偏移预测,使用smooth L1损失函数来训练目标函数 L
scale
和L
offset

[0029][0030][0031]其中s
k
和分别代表网络对第k个行人的尺度的预测结果和真实值, o
k
和分别代表网络对第k个行人的偏移的预测结果和真实值;
[0032]综上,总的训练损失函数被定义为:
[0033]L=λ
c
L
center

s
L
scale

o
L
offset
ꢀꢀꢀ
(13)
[0034]其中,λ
c
,λ
s
,和λ
o
分别对应中心点分类损失,尺度回归损失和偏移回归损失的权重。
[0035]采用上述方案后,本专利技术首先对输入图像进行多层卷积网络的特征提取,以多尺度方式拆分和拼接特征图,大大提高了网络对行人的多尺度表达能力。其次,通过充分融合高低层的行人特征来提升对多尺度行人的检测精度;然后,将融合后的特征图通本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的多尺度残差网络的行人检测方法,其特征在于:所述方法包括以下步骤:步骤1、输入图像,并将输入图像通过多尺度残差网络进行特征提取;多尺度残差网络包括stem模块、以及第一阶段、第二阶段、第三阶段和第四阶段,其中第一阶段包括三个Res2NeXt*模块,第二阶段包括四个Res2NeXt*模块,第三阶段包括六个Res2NeXt*模块,第四阶段包括三个Res2NeXt*模块;输入图像经过stem模块处理后依次进入第一阶段~第四阶段,相应地生成多个具有不同分辨率的特征图,将其定义为:Φ
i
=f
i

i
‑1)=f
i
(f
i
‑1(

f2(f1(I))))其中,Φ
i
代表网络第i层输出的特征图;所述Res2NeXt*模块在瓶颈块中以一个3
×
3卷积核组代替ResNeXt模块中一个单独的3
×
3卷积核;在1
×
1卷积核后,特征图被均匀地分成s个子特征图,用x
i
表示,其中,i∈{1,2,

,s};每个x
i
经过一个3
×
3卷积核,输出用K
i
()表示,并把K
i
()的输出记为y
i
;子特征图x
i
与K
i
‑1的输出相加,然后输入到K
i
(),因此,y
i
可以被表示为:由此可得,每个3
×
3卷积核K
i
()都可以潜在地从其他所有子特征图x
j
中接收到特征信息,其中,{x
j
,j≤i};步骤2、对高低层特征进行特征融合;将第二阶段、第三阶段和第四阶段输出的多尺度特征图Φ2,Φ3,Φ4进行了L2归一化和反卷积处理,将它们的分辨率上采样到和Φ1的大小一致,然后将经过处理后的特征图拼接起来,得到用于检测头的特征图;步骤3、利用检测头将特征图解译为检测结果;在拼接的特征图后添...

【专利技术属性】
技术研发人员:李琦铭李俊毕钰泉曾辉雄
申请(专利权)人:泉州装备制造研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1