基于深度学习的行人检测模型构建方法及行人检测方法技术

技术编号:24252083 阅读:69 留言:0更新日期:2020-05-22 23:51
本发明专利技术公开了一种基于深度学习的行人检测模型构建方法及行人检测方法,该方法设计了一种深度卷积神经网络结构,联合采用改进的排斥损失来监督深度卷积神经网络的训练,该方法首先利用特征提取网络从图像中提取特征图,然后利用多步预测的方式生成行人预测框,最后利用非极大值抑制策略过滤出最终的行人检测框。本发明专利技术提出的方法能够有效减少由于类内遮挡引起的漏检和误检。

Pedestrian detection model construction method and pedestrian detection method based on deep learning

【技术实现步骤摘要】
基于深度学习的行人检测模型构建方法及行人检测方法
本专利技术涉及计算机视觉和模式识别领域,具体涉及一种基于深度学习的行人检测模型构建方法及行人检测方法。
技术介绍
计算机视觉近几年来一直是研究的热点和难点,而行人检测作为高层视觉任务的基础,已成为计算机视觉领域中至关重要的研究问题。计算机视觉即通过机器视觉来模仿人眼的视觉系统,认知心理学和神经生物学的研究发现,人类在识别一个具体的物体是什么之前具有一种很强的感知物体的能力。对一幅复杂的图像来说,人类的视觉系统在一开始的反应时间内只会关注其中的某些部分,并忽略图像中其余不显著的部分。这进一步说明在识别一个具体事物之前,在人类的视觉系统中存在一个简单的视觉注意机制,该机制用来筛选出最有可能含有物体的区域。近年来,卷积神经网络(CNN)在计算机视觉和模式识别方面表现出了强大的能力。许多基于CNN的物体检测方法已经被提出,这促进了行人检测的学术研究和应用进展。目前最先进的行人检测方法为SSD,SSD是端到端的目标检测算法,SSD框架主要包括两部分:特征提取网络和预测网络。其中,特征提取网络用于提取图像特征,生成特征图,现有的特征提取网络提前到的特征不够丰富,且参数多、计算量大。SSD模型在预测阶段,通过直接预测真实框相对于先验框的偏移量,得到目标检测框,缺少了对预测框的修正过程,导致预测框不能准确定位行人。另外,现有的SSD中使用的损失函数缺少对遮挡行人的特殊处理。
技术实现思路
本专利技术目的在于提供一种基于深度学习的行人检测模型构建方法及行人检测方法,以提高SSD模型在行人检测方面的性能。实现本专利技术目的的技术方案为:一种基于深度学习的行人检测模型构建方法,包括以下步骤:步骤A1,对行人数据集做预处理,然后利用特征提取网络,提取行人特征,生成特征图;步骤A2,将特征图和先验框输入预测网络,生成预测框并作为新的先验框,然后将特征图和新的先验框输入预测网络,生成行人预测框;步骤A3,利用行人数据集训练用于检测行人的深度卷积神经网络,并输出训练好的用于检测行人的深度卷积神经网络;所述深度卷积神经网络的损失由FocalLoss分类损失和具有吸引和排斥功能的定位损失组成。一种基于深度学习的行人检测方法,包括如下步骤:步骤B1,输入待检测行人图像;步骤B2,利用步骤A2中训练好的特征提取网络提取待检测图像的特征,生成特征图,并通过A3训练好的预测网络生成检测框;步骤B3,利用非极大值抑制策略对步骤B2中生成的检测框进行筛选,并输出行人检测结果。与现有技术相比,本专利技术的显著优点为:(1)本专利技术采用ResNet-50作为特征提取网络,并生成4个不同尺度的特征图,保证了模型既能检测到较大目标又能有效的发现小目标;(2)本专利技术采用两步预测的方式,第二次是在第一次预测框的基础上做预测,相当于增加了预测框的修正过程,使预测框定位更加准确;(3)针对行人间的密集遮挡问题,本专利技术使用GIoU损失替换SmoothL1损失作为新的吸引项,并增加了辅助排斥损失项,能够更好的将遮挡率高的行人区分开来,减少了检测器的漏检和误检,提高了检测器的鲁棒性。附图说明图1是基于深度学习的行人检测模型构建方法及行人检测方法流程图。具体实施方式本专利技术所提出的基于深度学习的行人检测模型构建方法及行人检测方法,主要包括将第一步预测的预测框作为新的先验框进行第二步预测、使用新的吸引项和排斥项替换SmoothL1损失并训练SSD模型、使用SSD检测器完成行人检测三个主要部分。下面结合附图,对本专利技术的一些示范性实施例加以说明。一种基于深度学习的行人检测模型构建方法,以克服现有SSD的行人检测方法出现明显误检测的问题。结合图1,该方法包括以下3个步骤:步骤A1,对行人数据集做预处理,然后利用特征提取网络,提取行人特征,生成特征图;步骤A2,将特征图和先验框输入预测网络,生成预测框并作为新的先验框,然后将特征图和新的先验框输入预测网络,生成行人预测框;步骤A3,利用行人数据集训练用于检测行人的深度卷积神经网络,并输出训练好的用于检测行人的深度卷积神经网络;所述深度卷积神经网络的损失由FocalLoss分类损失和具有吸引和排斥功能的定位损失组成。优选的,所述预处理包括对行人标签的处理和数据增强两部分,其中对行人标签的处理是保留行人高度大于50像素的行人真实框,数据增强包括图像随机裁剪、图像翻转、调节图像亮度和图像扭曲。优选的,在步骤A3中所述深度卷积神经网络由特征提取网络和预测网络两个子网络构成;使用ResNet-50网络作为特征提取网络的基础网络,在特征提取网络后面添加若干卷积层作为预测网络。优选的,使用ResNet-50网络中stage3、stage4和stage5的最后一层作为三个不同尺度的特征图,然后在它们后面分别加一个卷积层作为第四个特征图。另外,预测网络为,在特征提取网络的后面添加一个3*3的卷积层,然后附加两个1*1的分支卷积层。优选的,利用特征提取网络,可以得到4种不同尺度的特征图,分辨率分别为80*160*512、40*80*1024、20*40*2048和10*20*2048。另外,利用预测网络可以得到预测框和每个预测框对应的分类置信度。优选的,通过两步预测的方式,预测网络利用特征图和先验框生成预测框和分类置信度,其预测步骤具体为:首先,将特征图和预设的先验框输入预测网络,得到第一步预测的预测框,然后,将第一步预测得到的预测框作为新的先验框,并与特征图共同输入预测网络,得到第二步预测的预测框。优选的,所述的先验框为预设的候选窗口,对于特征图的每一个位置,输出这个位置上4种尺度和4种长宽比的16个候选窗口。优选的,所述深度卷积神经网络中的特征提取网络的输入为预处理后的行人数据集,预测网络的输入为特征图和先验框;其中预测网络中的特征图为经过特征提取网络从行人数据集中提取到的行人特征图。所述深度卷积神经网络的损失函数,其构建方法具体为:使用FocalLoss作为分类损失,定位损失包括具有定位功能的吸引项和具有辅助定位功能的排斥项。优选的,所述的吸引项能够使预测框尽可能接近真实框,所述的排斥项可以使预测框尽可能远离其它目标的真实框,进而有效减少遮挡造成的漏检。优选的,吸引项使用GIoU损失函数,排斥项使用改进的RepulsionLoss损失函数:其中G和P分别表示真实框和预测框,g表示所有真实框,P+表示预测框中所有正样本,C表示G与P的最小闭包矩形,表示除了与P匹配的真实框以外的其他的与P具有最大GIoU的真实框,ρ是比例系数。本专利技术基于上述基于深度学习的行人检测模型构建方法,还提出了一种基于深度学习的行人检测方法,包括如下步骤:步骤B1,输入待检测行人图像;步骤B2,利用步骤A2中训练好的特征提取网本文档来自技高网...

【技术保护点】
1.一种基于深度学习的行人检测模型构建方法,其特征在于,包括以下步骤:/n步骤A1,对行人数据集做预处理,然后利用特征提取网络,提取行人特征,生成特征图;/n步骤A2,将特征图和先验框输入预测网络,生成预测框并作为新的先验框,然后将特征图和新的先验框输入预测网络,生成行人预测框;/n步骤A3,利用行人数据集训练用于检测行人的深度卷积神经网络,并输出训练好的用于检测行人的深度卷积神经网络;所述深度卷积神经网络的损失由Focal Loss分类损失和具有吸引和排斥功能的定位损失组成。/n

【技术特征摘要】
1.一种基于深度学习的行人检测模型构建方法,其特征在于,包括以下步骤:
步骤A1,对行人数据集做预处理,然后利用特征提取网络,提取行人特征,生成特征图;
步骤A2,将特征图和先验框输入预测网络,生成预测框并作为新的先验框,然后将特征图和新的先验框输入预测网络,生成行人预测框;
步骤A3,利用行人数据集训练用于检测行人的深度卷积神经网络,并输出训练好的用于检测行人的深度卷积神经网络;所述深度卷积神经网络的损失由FocalLoss分类损失和具有吸引和排斥功能的定位损失组成。


2.根据权利要求1所述的基于深度学习的行人检测模型构建方法,其特征在于,所述预处理包括对行人标签的处理和数据增强两部分,其中对行人标签的处理是保留行人高度大于50像素的行人真实框,数据增强包括图像随机裁剪、图像翻转、调节图像亮度和图像扭曲。


3.根据权利要求1所述的基于深度学习的行人检测模型构建方法,其特征在于,在步骤A3中所述深度卷积神经网络由特征提取网络和预测网络两个子网络构成;
使用ResNet-50网络作为特征提取网络的基础网络,在特征提取网络后面添加若干卷积层作为预测网络。


4.根据权利要求3所述的基于深度学习的行人检测模型构建方法,其特征在于,使用ResNet-50网络中stage3、stage4和stage5的最后一层作为三个不同尺度的特征图,然后在它们后面分别添加一个卷积层作为第四个特征图;预测网络为,在特征提取网络的后面添加一个3*3的卷积层,然后附加两个1*1的分支卷积层。


5.根据权利要求4所述的基于深度学习的行人检测模型构建方法,其特征在于,利用特征提取网络,可以得到4种不同尺度的特征图,分辨率分别为80*160*512、40*80*1024、20*40*2048和10*20*2048;利用预测网络可以得到预测框和每个预测框对应的分类置信度。...

【专利技术属性】
技术研发人员:李旻先张基文
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1