基于深度学习的行人检测模型构建方法及行人检测方法技术

技术编号：24252083 阅读：102 留言：0更新日期：2020-05-22 23:51

本发明专利技术公开了一种基于深度学习的行人检测模型构建方法及行人检测方法，该方法设计了一种深度卷积神经网络结构，联合采用改进的排斥损失来监督深度卷积神经网络的训练，该方法首先利用特征提取网络从图像中提取特征图，然后利用多步预测的方式生成行人预测框，最后利用非极大值抑制策略过滤出最终的行人检测框。本发明专利技术提出的方法能够有效减少由于类内遮挡引起的漏检和误检。

Pedestrian detection model construction method and pedestrian detection method based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的行人检测模型构建方法及行人检测方法
本专利技术涉及计算机视觉和模式识别领域，具体涉及一种基于深度学习的行人检测模型构建方法及行人检测方法。
技术介绍
计算机视觉近几年来一直是研究的热点和难点，而行人检测作为高层视觉任务的基础，已成为计算机视觉领域中至关重要的研究问题。计算机视觉即通过机器视觉来模仿人眼的视觉系统，认知心理学和神经生物学的研究发现，人类在识别一个具体的物体是什么之前具有一种很强的感知物体的能力。对一幅复杂的图像来说，人类的视觉系统在一开始的反应时间内只会关注其中的某些部分，并忽略图像中其余不显著的部分。这进一步说明在识别一个具体事物之前，在人类的视觉系统中存在一个简单的视觉注意机制，该机制用来筛选出最有可能含有物体的区域。近年来，卷积神经网络(CNN)在计算机视觉和模式识别方面表现出了强大的能力。许多基于CNN的物体检测方法已经被提出，这促进了行人检测的学术研究和应用进展。目前最先进的行人检测方法为SSD，SSD是端到端的目标检测算法，SSD框架主要包括两部分：特征提取网络和预测网络。其中，特征提取网络用于提取图像特征，生成特征图，现有的特征提取网络提前到的特征不够丰富，且参数多、计算量大。SSD模型在预测阶段，通过直接预测真实框相对于先验框的偏移量，得到目标检测框，缺少了对预测框的修正过程，导致预测框不能准确定位行人。另外，现有的SSD中使用的损失函数缺少对遮挡行人的特殊处理。
技术实现思路
本专利技术目的在于提供一种基于深度学习的行人检测模型构建方法...

【技术保护点】
1.一种基于深度学习的行人检测模型构建方法，其特征在于，包括以下步骤：/n步骤A1，对行人数据集做预处理，然后利用特征提取网络，提取行人特征，生成特征图；/n步骤A2，将特征图和先验框输入预测网络，生成预测框并作为新的先验框，然后将特征图和新的先验框输入预测网络，生成行人预测框；/n步骤A3，利用行人数据集训练用于检测行人的深度卷积神经网络，并输出训练好的用于检测行人的深度卷积神经网络；所述深度卷积神经网络的损失由Focal Loss分类损失和具有吸引和排斥功能的定位损失组成。/n

【技术特征摘要】
1.一种基于深度学习的行人检测模型构建方法，其特征在于，包括以下步骤：
步骤A1，对行人数据集做预处理，然后利用特征提取网络，提取行人特征，生成特征图；
步骤A2，将特征图和先验框输入预测网络，生成预测框并作为新的先验框，然后将特征图和新的先验框输入预测网络，生成行人预测框；
步骤A3，利用行人数据集训练用于检测行人的深度卷积神经网络，并输出训练好的用于检测行人的深度卷积神经网络；所述深度卷积神经网络的损失由FocalLoss分类损失和具有吸引和排斥功能的定位损失组成。

2.根据权利要求1所述的基于深度学习的行人检测模型构建方法，其特征在于，所述预处理包括对行人标签的处理和数据增强两部分，其中对行人标签的处理是保留行人高度大于50像素的行人真实框，数据增强包括图像随机裁剪、图像翻转、调节图像亮度和图像扭曲。

3.根据权利要求1所述的基于深度学习的行人检测模型构建方法，其特征在于，在步骤A3中所述深度卷积神经网络由特征提取网络和预测网络两个子网络构成；
使用ResNet-50网络作为特征提取网络的基础网络，在特征提取网络后面添加若干卷积层作为预测网络。

4.根据权利要求3所述的基于深度学习的行人检测模型构建方法，其特征在于，使用ResNet-50网络中stage3、stage4和stage5的最后一层作为三个不同尺度的特征图，然后在它们后面分别添加一个卷积层作为第四个特征图；预测网络为，在特征提取网络的后面添加一个3*3的卷积层，然后附加两个1*1的分支卷积层。

5.根据权利要求4所述的基于深度学习的行人检测模型构建方法，其特征在于，利用特征提取网络，可以得到4种不同尺度的特征图，分辨率分别为80*160*512、40*80*1024、20*40*2048和10*20*2048；利用预测网络可以得到预测框和每个预测框对应的分类置信度。...

【专利技术属性】
技术研发人员：李旻先，张基文，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人