一种基于改进的多尺度残差网络的行人检测方法技术

技术编号：33040260 阅读：8 留言：0更新日期：2022-04-15 09:20

本发明专利技术涉及一种基于改进的多尺度残差网络的行人检测方法，其首先对输入图像进行多层卷积网络的特征提取，以多尺度方式拆分和拼接特征图，大大提高了网络对行人的多尺度表达能力。其次，通过充分融合高低层的行人特征来提升对多尺度行人的检测精度；然后，将融合后的特征图通过检测头，生成中心点特征图、尺度特征图和中心点偏移量特征图，将特征图解译为检测结果；最后输出带有边界框的行人。本发明专利技术的主干网络包含不同数量和不同组合的感受野，有效促进了网络对多尺度行人特征的提取，显著提高对不同大小的行人的检测性能。高对不同大小的行人的检测性能。高对不同大小的行人的检测性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进的多尺度残差网络的行人检测方法

[0001]本专利技术涉及行人检测领域，具体涉及一种基于改进的多尺度残差网络的行人检测方法。

技术介绍

[0002]行人检测是计算机视觉领域经典的问题之一，具有十分广泛的应用，例如智能机器人，自动驾驶和视频监控等。由于行人自身的差异性和行人到摄像头的距离不同，导致图像或视频中的行人尺度变化不一，对多尺度行人的检测仍然是一项极具挑战的任务。近年来很多基于深度学习的行人检测算法相继被提出。这些方法按照是否使用了候选框可以大致分为两大类：一类是使用候选锚框的行人检测算法，这类方法存在一定的局限性，比如它们需要设定锚框的尺度和长宽比等较难设定的超参数，这样做会影响检测性能。虽然可以通过使用更多不同尺度和长宽比的锚框达到更好的检测效果，但是需要从输入图像中密集提取大量候选框作为训练样本，这些样本大部分被标记为负样本，这样导致的正负样本不平衡问题同样会影响检测性能。另一类是不需要候选锚框的行人检测算法，即通过卷积网络直接从图像中检测行人。但是已有的无锚的行人检测方法，其特征表示的尺度较为单一，网络层的感受野范围也有较大的限制，针对行人检测中具有挑战性的尺度变化问题，还有进一步的提升空间。
[0003]目前的行人检测方法先通过主干网络进行行人特征的提取，然后通过检测器检测输入图像或视频中行人的位置和大小。由于行人自身的差异和行人到摄像头的距离不同，行人的尺度变化不一。此外，已有的检测方法仅通过将多尺度特征加权平均或级联融合来实现不同尺度特征信息融合，多尺度的行人无法得到有效的描述...

【技术保护点】

【技术特征摘要】
1.一种基于改进的多尺度残差网络的行人检测方法，其特征在于：所述方法包括以下步骤：步骤1、输入图像，并将输入图像通过多尺度残差网络进行特征提取；多尺度残差网络包括stem模块、以及第一阶段、第二阶段、第三阶段和第四阶段，其中第一阶段包括三个Res2NeXt*模块，第二阶段包括四个Res2NeXt*模块，第三阶段包括六个Res2NeXt*模块，第四阶段包括三个Res2NeXt*模块；输入图像经过stem模块处理后依次进入第一阶段～第四阶段，相应地生成多个具有不同分辨率的特征图，将其定义为：Φ
i
＝f
i
(Φ
i
‑1)＝f
i
(f
i
‑1(
…
f2(f1(I))))其中，Φ
i
代表网络第i层输出的特征图；所述Res2NeXt*模块在瓶颈块中以一个3
×
3卷积核组代替ResNeXt模块中一个单独的3
×
3卷积核；在1
×
1卷积核后，特征图被均匀地分成s个子特征图，用x
i
表示，其中，i∈{1，2，
…
，s}；每个x
i
经过一个3
×
3卷积核，输出用K
i
()表示，并把K
i
()的输出记为y
i
；子特征图x
i
与K
i
‑1的输出相加，然后输入到K
i
()，因此，y
i
可以被表示为：由此可得，每个3
×
3卷积核K
i
()都可以潜在地从其他所有子特征图x
j
中接收到特征信息，其中，{x
j
，j≤i}；步骤2、对高低层特征进行特征融合；将第二阶段、第三阶段和第四阶段输出的多尺度特征图Φ2，Φ3，Φ4进行了L2归一化和反卷积处理，将它们的分辨率上采样到和Φ1的大小一致，然后将经过处理后的特征图拼接起来，得到用于检测头的特征图；步骤3、利用检测头将特征图解译为检测结果；在拼接的特征图后添...

【专利技术属性】
技术研发人员：李琦铭，李俊，毕钰泉，曾辉雄，
申请(专利权)人：泉州装备制造研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人