一种基于改进YOLOv4的遮挡行人实时检测方法技术

技术编号:33020208 阅读:7 留言:0更新日期:2022-04-15 08:53
本发明专利技术涉及一种基于改进YOLOv4的遮挡行人实时检测方法,属于计算机视觉领域。该方法包括:获取数据集并对其处理;使用K_means++算法进行聚类,生成最终的先验框;利用主干特征网络融合通道注意力机制进行特征提取;利用空间金字塔SPP模块对主干特征网络提取的特征图进行最大池化并合并;将主干特征网络中大残差块获取的后四层特征图进行特征融合处理;将特征融合后的特征图通过YOLO检测头进行结果预测,对目标位置和类别进行预测,利用损失函数训练模型;将模型训练生成的最优权重用于模型中,将测试集图片放入模型中进行测试。本发明专利技术实现了实时对遮挡行人的高精度检测,使用参数少,检测速度快。检测速度快。检测速度快。

【技术实现步骤摘要】
一种基于改进YOLOv4的遮挡行人实时检测方法


[0001]本专利技术属于计算机视觉
,涉及一种针对复杂场景下对遮挡行人的检测方法。

技术介绍

[0002]随着深度学习的不断发展,引领着目标检测领域快速地发展。行人检测作为目标检测领域的一个重要方向,随着智能监控、智能交通等应用领域的发展,使得行人检测也逐渐成为计算机领域中一个具有重要研究价值和研究意义的课题。由于应用领域场景的需求,准确、实时的行人检测中是非常有必要的。
[0003]传统行人检测方法是建立在手工制作特征和浅层可训练架构上的,采用从目标检测器和场景分类器中结合量低水平图像特征和高水平语义信息来构建成复杂的系统。传统目标检测方法取得了一定的成果,但也暴露了其固有的弊端。传统的目标检测算法由于鲁棒性不好,泛化性差,繁杂的算法步骤导致检测效率慢、精度不高的检测方法已经难以满足人们对目标检测高性能效果的需求。随着深度学习在目标检测领域的发展,基于深度学习的目标检测已成为主流检测算法。主流的目标检测算法主要分为双阶段检测算法和单阶段检测算法。双阶段检测算法是以R

CNN为代表的基于候选区域的目标检测算法,主要包括R

CNN、Fast R

CNN、Faster R

CNN。该检测算法通常分为两步:第一步是从图像中提取建议框,并剔除一部分背景建议框,同时做一次位置修正;第二步是对每个建议框进行检测分类和位置修正。该类算法在一定程度上提升了目标检测的准确率,但在检测速度上不能达到实时检测。单阶段检测算法是以YOLO、SSD系列为代表的基于回归分析的目标检测算法。该检测方法不再使用建议框进行“粗检测+精修”,而采用一步到位的方法得到结果,单阶段目标检测算法只进行一次前馈网络计算,因此在速度上有了很大提升。
[0004]通用的目标检测算法对于图像清晰、无遮挡行人的检测效果极佳。但对于图像分辨率较低、图像模糊以及存在遮挡情况下的行人仍然存在着较大的漏检、错检等情况。由于复杂场景下或者人流量较大的场景下,会出现遮挡情况导致有效特征提取困难,影响着最终检测效果。常见的遮挡分为类间遮挡和类内遮挡两种情况。类间遮挡是指目标行人被场景中的车辆、房子、树等一些背景物体所遮挡,类内遮挡是指行人间的相互遮挡。由于密集场景下存在着大量的遮挡情况,导致行人特征缺失、检测精确度大大降低。为了保证行人检测的准确度,降低漏检率和错检率,就需要提取更加充分有效的深层语义特征,这样势必会加深模型的网络结构,增加相应的计算量和参数量,大大降低了模型检测速度,导致模型无法进行实时、高效地检测。如果要保证检测速度,可以减少模型网络层数或复杂程度,从而减少参数量和计算量,提高相应的检测速度。但这样会导致有效特征提取不充分,丢失部分重要特征,导致漏检或错检。因此,亟需设计一种检测模型,即能够高效地去检测遮挡目标,同时又能够使模型的检测速度不降低,达到实时检测是具有重要的理论和实际意义。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于改进YOLOv4的遮挡行人实时检测方法,针对复杂场景下、存在大量遮挡情况下对行人检测,该检测方法具有较高的精确度和实时的检测速度。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于改进YOLOv4的遮挡行人实时检测方法,具体包括以下步骤:
[0008]S1:获取WiderPerson数据集,并将其划分为训练集、验证集和测试集,同时使用数据增强手段和图片拼接技术对数据集进行处理,使训练集更加充分广泛,丰富检测物体的背景信息;
[0009]S2:对WiderPerson数据集中标记的真实框使用K_means++算法进行聚类,获得12个聚类中心作为模型先验框中心点使用,生成最终的先验框。
[0010]由于本专利技术采用的数据集行人密度较高,使用模型原始的先验框,会导致先验框的设定与该数据集不搭配导致最终生成的预测框精确度较低。K_means++相比于K_means,它不是随机选取n个点作为聚类中心,而是随机选取有一个点,然后根据已经选取的k个点选取一个距离这k个点最远距离的点作为第k+1个点。相比于k_means聚类算法,k_means++聚类的中心点效果更好。
[0011]S3:利用主干特征网络融合通道注意力机制进行特征提取,增强主干特征提取网络的特征提取能力;
[0012]S4:利用空间金字塔SPP模块对主干特征网络提取的特征图进行最大池化,并将池化后的结果进行合并,增强相应的感受野;
[0013]S5:将主干特征网络中大残差块获取的后四层特征图进行特征融合处理;
[0014]S6:将步骤S5特征融合后的四层特征图通过四个不同尺寸大小的YOLO检测头进行结果预测,对目标位置和类别进行预测,利用损失函数训练模型;
[0015]S7:将模型训练生成的最优权重用于模型中,将测试集图片放入模型中进行测试,获得最终的检测结果。
[0016]进一步,步骤S1具体包括:将WiderPerson数据集划分为最终的训练集、验证集和测试集。WiderPerson有五个检测类别,删除掉不需要的类别,保留标签为pedestrians和partially这两个类别进行检测。Pedestrians标签标注的主要是轻微遮挡的行人和无遮挡的行人,partially标签标记的是遮挡较为严重的行人,将最终两个类别合并为pedestrians标签进行检测。同时利于数据增强手段,将四张图片进行翻转、缩放、色域变换后进行拼接,增强数据集的全面性,丰富检测物体的背景,通过训练增强在复杂背景下提取特征的能力。将数据集格式转换为VOC数据集格式,就是将txt标注格式转换为xml标注格式,按照前面的比例划分生成最终的train.txt、val.txt、test.txt。train.txt是训练集图片,val.txt是验证集图,test.txt是最终的测试集图片。
[0017]进一步,步骤S3具体包括:利用CSPdarkNet53主干特征提取网络对输入图片进行特征提取;其中,CSPdarknet53主要由5个CSPNet结构的大残差块即CSP块堆叠而成,在每个CSP块中加入通道注意力SE(Squeeze

and

Excitation)模块;进行特征提取:从第二个CSP块到第四个CSP块获得的特征图对应为P2、P3、P4、P5。在主干网络中加入通道注意力模块,可以起到通过训练去提高有用特征通道的权重,抑制无用特征的权重,比如抑制背景信息
特征等。
[0018]进一步,步骤S4具体包括:将步骤3获得的特征图P5通过SPP(Spatial Pyramid Pooling)模块,利用四个不同尺度的池化层进行最大池化,将池化结构进行合并,通过不同尺度的池化和处理后,可以将不同大小的特征进行融合,显著提高目标感受野,同时也可以解决输入图像尺寸不统一的问题。
[0019]进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进YOLOv4的遮挡行人实时检测方法,其特征在于,该方法具体包括以下步骤:S1:获取数据集,并将其划分为训练集、验证集和测试集,同时使用数据增强手段和图片拼接技术对数据集进行处理;S2:对数据集中标记的真实框使用K_means++算法进行聚类,获得12个聚类中心作为模型先验框中心点使用,生成最终的先验框;S3:利用主干特征网络融合通道注意力机制进行特征提取;S4:利用空间金字塔SPP模块对主干特征网络提取的特征图进行最大池化,并将池化后的结果进行合并;S5:将主干特征网络中大残差块获取的后四层特征图进行特征融合处理;S6:将步骤S5特征融合后的四层特征图通过四个不同尺寸大小的YOLO检测头进行结果预测,对目标位置和类别进行预测,利用损失函数训练模型;S7:将模型训练生成的最优权重用于模型中,将测试集图片放入模型中进行测试,获得最终的检测结果。2.根据权利要求1所述的基于改进YOLOv4的遮挡行人实时检测方法,其特征在于,步骤S3具体包括:利用CSPdarkNet53主干特征提取网络对输入图片进行特征提取;其中,CSPdarknet53由5个CSPNet结构的大残差块即CSP块堆叠而成,在每个CSP块中加入通道注意力模块;进行特征提取:从第二个CSP块到第四个CSP块获得的特征图对应为P2、P3、P4、P5。3.根据权利要求2所述的基于改进YOLOv4的遮挡行人实时检测方法,其特征在于,步骤S5具体包括:将步骤S4获得的特征图与P2、P3、P4,通过改进的PANet网络进行特征的融合处理;其中,改进的PANet网络是将PANet中的五层堆叠卷积替换为Res_C模块,Res_C模块中引入CBAM注意力机制和基本残差网络,同时将模块中3
×
3标准卷积替换为深度可分离卷积。4.根据权利要求1所述的基于改进YOLOv4的遮挡行人实时检测方法,其特征在于,步骤S6中,四个不同尺寸大小的YOLO检测头具体为:设输入图片尺寸N*N,通道数为3,各分支分别输出(M*M*(4+1+C)),N为输入图片尺寸,M为不同尺度的特征层预测的结果,...

【专利技术属性】
技术研发人员:梁燕朱清
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1