一种基于深度学习的复杂背景行人检测方法技术

技术编号:20944837 阅读:186 留言:0更新日期:2019-04-24 02:32
本发明专利技术公开了一种基于深度学习的复杂背景行人检测方法,其主要步骤如下:搭建SSD目标检测框架并修改SSD网络模型:在特定卷积层中间添加Inception组件,通过Concatenation操作将特定卷积层进行融合,得到新的特征提取层,以新特征提取层为基础层构建新的特征提取网络;在新特征提取层后端添加Inception组件,并通过Pooling和Concatenation操作将所提取特征逐层与后续的特征提取层融合;以上述步骤所得的网络作为训练网络,使用行人数据集进行训练;设定相关阈值,使用相应的测试集进行测试,输出检测结果。本发明专利技术通过加深和加宽神经网络来充分挖掘图像中的背景信息,不仅提高了SSD框架在行人检测任务中的召回率,而且增强了该框架的鲁棒性,提升了该框架在复杂背景下的行人检测性能。

A Pedestrian Detection Method Based on Deep Learning in Complex Background

The invention discloses a pedestrian detection method with complex background based on in-depth learning. The main steps are as follows: building a detection framework of SSD targets and modifying the SSD network model: adding an Inception component in the middle of a specific convolution layer, fusing a specific convolution layer through Concatenation operation, obtaining a new feature extraction layer, and constructing a new feature extraction layer based on a new feature extraction layer. Network; Add Inception components to the back end of the new feature extraction layer, and fuse the extracted features layer by layer with the subsequent feature extraction layer through the operation of Pooling and Concatenation; train the network using pedestrian data set as the training network; set the relevant threshold, test the corresponding test set, and output the test results. By deepening and broadening the neural network to fully mine the background information in the image, the invention not only improves the recall rate of the SSD framework in the pedestrian detection task, but also enhances the robustness of the framework and improves the pedestrian detection performance of the framework in complex background.

【技术实现步骤摘要】
一种基于深度学习的复杂背景行人检测方法
本专利技术涉及计算机视觉和人工智能
,具体涉及一种基于深度学习的复杂背景行人检测方法。
技术介绍
行人检测即判断输入的图像或视频序列中是否存在行人,并确定其位置。行人检测是目标检测的一个分支,也是目标检测领域的研究热点和难点,其在自动驾驶、视频监控和智能机器人等人工智能领域中具有广泛的应用。同时,行人检测也是许多计算机视觉任务的前提和基础,如行人结构化、行人行为分析和行人再识别等任务,都需要先对输入数据中的行人做出检测才能进行后续的工作。因此,有效的行人检测方法具有重要的研究意义与迫切的实际需求。行人检测技术在20世纪90年代就开始引起了人们的关注,许多学者围绕该领域开展研究,诞生了多种不同类型的行人检测方法,较为经典的有基于机器学习的行人检测方法。基于机器学习的行人检测研究主要集中于2005至2011年这段时间内,从行人描述特征着手,可将此阶段产生的方法分为基于全局特征的方法、基于人体部件特征的方法和基于立体视觉特征的方法三大类。Dalal和Triggs在2005年提出梯度方向直方图(HistogramofOrientedGradient,HOG)的概念,并在发表于CVPR(IEEEConferenceonComputerVisionandPatternRecognition)会议上的论文《Histogramsoforientedgradientsforhumandetection》中将其用于行人检测,该算法在MIT行人数据库上获得近乎100%的检测成功率,在包含视角、光照和背景等变化的INRIA行人数据库上,也取得了大约90%的检测成功率。Mikolajczyk等人在ECCV(EuropeanConferenceonComputerVision)会议上发表论文《Humandetectionbasedonaprobabilisticassemblyofrobustpartdetectors》,将人体分成人脸、头肩部以及腿部,然后对每个部分采用SIFT(ScaleInvariantFeatureTransform)特征进行描述,该方法在MIT行人库上取得了不错的检测效果。Hattori等人在BMVC(BritishMachineVisionConference)会议上发表论文《Stereo-basedpedestriandetectionusingmultiplepatterns》,提出对左右视角的多个图像进行ROI(RegionofInterest)提取,并将其用于模式分类,降低了目标检测的误检率。基于机器学习的行人检测方法采取人工提取特征的方式,其往往具有片面性和主观性,且存在特征提取能力不足的缺点。最近,深度学习以其端到端的训练方式及强大的特征提取能力,在计算机视觉领域引起了一大批学者的关注。在目标检测和行人检测领域,研究者们也纷纷尝试将深度学习应用到目标检测和行人检测任务中。2014年Girshick等人在CVPR会议上发表论文《RichFeatureHierarchiesforAccurateObjectDetectionandSemanticSegmentation》,创新性地提出了“候选窗口生成+特征提取+候选窗口分类”的三段式区域卷积神经网络(RegionbasedConvolutionalNeuralNetwork,R-CNN)目标检测方法,并取得优异的检测效果。虽然R-CNN在精确度上有较大的提升,但是其速度非常慢,处理一张图片大约需要200秒。随后,Girshick等人又于2015年分别在ICCV(IEEEInternationalConferenceonComputerVision)会议和InternationalConferenceonNeuralInformationProcessingSystems会议上发表论文《FastR-CNN》和《FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks》,提出检测速度更快、检测精确度更高的目标检测框架FastR-CNN和FasterR-CNN,形成R-CNN系列目标检测算法。与R-CNN系列方法不同,Redmon等人在CVPR会议上发表论文《YouOnlyLookOnce:Unified,Real-TimeObjectDetection》,提出YOLO目标检测模型,该模型通过直接回归的方法在实现较好检测精确度的同时极大提升检测速度。Liu等人在ECCV会议上发表论文《SSD:SingleShotMultiBoxDetector》,其在YOLO模型的基础上进行改进,提出SSD目标检测框架,进一步提升检测速度与精确度。上面主要讲述的是近几年基于深度学习的目标检测方法的发展历程,行人检测的方法大都是在通用目标检测方法的基础上进行一些修改,因此主要的发展路径大体一致。当前基于深度学习的行人检测主要包括两大类:一是将传统方法与神经网络相结合,先使用传统方法进行初步检测,然后将检测结果作为神经网络的输入,去掉传统方法在初步检测过程中产生的误检窗口。这一类方法一定程度上减少了误检窗口,然而,深度学习在此过程中扮演分类器的角色,算法的检测精确度主要依赖于传统方法,并且无法形成端到端的检测框架,需要人工参与部分特征的提取。第二类方法是将现有目标检测框架进行修改后使用行人数据进行训练,利用训练好的模型来完成行人检测任务。这类方法虽然取得了一定的效果,但是并未深究什么样的网络结构更适合于行人检测。基于深度学习的行人检测方法虽然在许多公开数据集上(如INRIA行人数据库等)取得了不错的检测效果,但是对于背景较为复杂的数据集或贴近现实生活的图像或视频数据,此类算法的表现却差强人意。当前针对复杂背景行人检测的研究相对较少,Zhao等人在专著IntelligentComputingTheoriesandApplication上发表论文《PedestrianDetectionBasedonFastR-CNNandBatchNormalization》,其将EdgeBoxes算法和FastR-CNN模型相结合,提出了一种针对复杂背景的行人检测方法,该方法先使用EdgeBoxes算法提取一系列候选框,再将提取的候选框作为输入数据训练修改过的FastR-CNN模型,最后使用训练好的FastR-CNN模型实现行人检测。虽然其所提算法在检测性能上有一定的提升,但距离直接应用于现实生活还存在一定差距,因此需要寻找有效的复杂背景行人检测方法,以解决复杂背景下的行人检测问题。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提供一种基于深度学习的复杂背景行人检测方法,该方法有效地克服了现有技术在复杂背景下行人检测准确率低和漏检率高等缺点,增强了SSD框架的鲁棒性,提升了该框架在复杂背景下的行人检测性能。本专利技术基于SSD目标检测框架通过加宽和加深神经网络的方式,结合Inception组件、特征融合方式的特点,提出一种基于深度学习的复杂背景行人检测方法,通过在SSD特征提取网络前端添加Inception组件,提升模型的特征提取能力,充分挖掘输本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的复杂背景行人检测方法,其特征在于,所述方法包括以下步骤:步骤1、以分类网络VGG16为基础网络搭建SSD目标检测框架,将SSD目标检测框架中的分类参数修改为二分类,构建SSD行人检测框架;步骤2、分别在SSD行人检测框架训练神经网络的第一、二层特征提取层中间和第三、四层特征提取层中间各添加两组Inception组件,替代原有卷积核大小为3x3的四层卷积层,且保持第三、四层特征提取层的宽度和高度一致,即输出特征尺寸均为10x10;步骤3、通过双线性插值的方式将第二、四层特征提取层的宽度和高度变换为38,得到新的第二、四层特征提取层,且其宽度和高度与第一层特征提取层一致,删除SSD行人检测框架训练神经网络的后两层特征提取层;步骤4、通过Concatenation操作将含有Inception组件的第一、二、四层特征提取层融合成新的特征提取层,以融合所得新特征提取层为基础层,逐层减小网络的宽度和高度,构建其它五层特征提取层,形成新的特征提取网络;步骤5、抽取新特征提取网络的第一层特征提取层,在其后端添加Inception组件,通过Pooling和Concatenation操作将该Inception组件的输出特征与特征提取网络的后五层特征提取层逐层进行融合,形成最终的特征提取网络;步骤6、在步骤3和步骤4所添加Inception组件中的每层卷积层后端添加Batch Normalization层,并在每个Inception组件的融合特征层后端添加两层卷积核大小为1x1的卷积层,形成Inception组件的最终输出特征;步骤7、获取训练图像并进行标注,使用SSD行人检测框架自带的数据增广操作对标注好的训练图像进行预处理,并以步骤2‑5所得神经网络作为训练网络,修改SSD行人检测框架对应参数并设置训练策略,使用预处理后的训练图像训练模型,当模型达到最大训练次数或者拟合时停止训练;步骤8、设定IOU交并比阈值、置信度阈值、非极大值抑制阈值,获取测试图像并调用训练好的模型进行前向计算得到检测结果,根据网络的检测结果在测试图像上画出相应的行人框,得到检测后的测试图像。...

【技术特征摘要】
1.一种基于深度学习的复杂背景行人检测方法,其特征在于,所述方法包括以下步骤:步骤1、以分类网络VGG16为基础网络搭建SSD目标检测框架,将SSD目标检测框架中的分类参数修改为二分类,构建SSD行人检测框架;步骤2、分别在SSD行人检测框架训练神经网络的第一、二层特征提取层中间和第三、四层特征提取层中间各添加两组Inception组件,替代原有卷积核大小为3x3的四层卷积层,且保持第三、四层特征提取层的宽度和高度一致,即输出特征尺寸均为10x10;步骤3、通过双线性插值的方式将第二、四层特征提取层的宽度和高度变换为38,得到新的第二、四层特征提取层,且其宽度和高度与第一层特征提取层一致,删除SSD行人检测框架训练神经网络的后两层特征提取层;步骤4、通过Concatenation操作将含有Inception组件的第一、二、四层特征提取层融合成新的特征提取层,以融合所得新特征提取层为基础层,逐层减小网络的宽度和高度,构建其它五层特征提取层,形成新的特征提取网络;步骤5、抽取新特征提取网络的第一层特征提取层,在其后端添加Inception组件,通过Pooling和Concatenation操作将该Inception组件的输出特征与特征提取网络的后五层特征提取层逐层进行融合,形成最终的特征提取网络;步骤6、在步骤3和步骤4所添加Inception组件中的每层卷积层后端添加BatchNormalization层,并在每个Inception组件的融合特征层后端添加两层卷积核大小为1x1的卷积层,形成Inception组件的最终输出特征;步骤7、获取训练图像并进行标注,使用SSD行人检测框架自带的数据增广操作对标注好的训练图像进行预处理,并以步骤2-5所得神经网络作为训练网络,修改SSD行人检测框架对应参数并设置训练策略,使用预处理后的训练图像训练模型,当模型达到最大训练次数或者拟合时停止训练;步骤8、设定IOU交并比阈值、置信度阈值、非极大值抑制阈值,获取测试图像并调用训练好的模型进行前向计算得到检测结果,根据网络的检测结果在测试图像上画出相应的行人框,得到检测后的测试图像。2.根据权利要求1所述的一种基于深度学习的复杂背景行人检测方法,其特征在于:所述步骤1中,SSD目标检测框架包含基础网络、特征提取网络和分类检测模块三部分,其中基础网络负责初步特征提取,特征提取网络负责多尺度特征提取,分类检测模块负责对特征提取网络所提取的特征进行分类;SSD目标检测框架的默认输入尺寸大小为300x300;其中,基础网络为VGG16中的conv1_1-fc7层,其中VGG16的全连接层fc6、fc7被改为卷积核大小为3x3的卷积层;另外,SSD目标检测框架的特征提取网络包含六层特征提取层,分别为:conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2,其中conv4_3和fc7为基础网络VGG16的卷积层。3.根据权利要求2所述的一种基于深度学习的复杂背景行人检测方法,其特征在于:所述步骤2中,通过Concatenation操作将卷积核大小分别为5x5、3x3、1x1的三层并联卷积层进行融合,组成Inception组件,其中卷积...

【专利技术属性】
技术研发人员:胡永健蔡佳然刘琲贝王宇飞
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1