The invention discloses a pedestrian detection method with complex background based on in-depth learning. The main steps are as follows: building a detection framework of SSD targets and modifying the SSD network model: adding an Inception component in the middle of a specific convolution layer, fusing a specific convolution layer through Concatenation operation, obtaining a new feature extraction layer, and constructing a new feature extraction layer based on a new feature extraction layer. Network; Add Inception components to the back end of the new feature extraction layer, and fuse the extracted features layer by layer with the subsequent feature extraction layer through the operation of Pooling and Concatenation; train the network using pedestrian data set as the training network; set the relevant threshold, test the corresponding test set, and output the test results. By deepening and broadening the neural network to fully mine the background information in the image, the invention not only improves the recall rate of the SSD framework in the pedestrian detection task, but also enhances the robustness of the framework and improves the pedestrian detection performance of the framework in complex background.
【技术实现步骤摘要】
一种基于深度学习的复杂背景行人检测方法
本专利技术涉及计算机视觉和人工智能
,具体涉及一种基于深度学习的复杂背景行人检测方法。
技术介绍
行人检测即判断输入的图像或视频序列中是否存在行人,并确定其位置。行人检测是目标检测的一个分支,也是目标检测领域的研究热点和难点,其在自动驾驶、视频监控和智能机器人等人工智能领域中具有广泛的应用。同时,行人检测也是许多计算机视觉任务的前提和基础,如行人结构化、行人行为分析和行人再识别等任务,都需要先对输入数据中的行人做出检测才能进行后续的工作。因此,有效的行人检测方法具有重要的研究意义与迫切的实际需求。行人检测技术在20世纪90年代就开始引起了人们的关注,许多学者围绕该领域开展研究,诞生了多种不同类型的行人检测方法,较为经典的有基于机器学习的行人检测方法。基于机器学习的行人检测研究主要集中于2005至2011年这段时间内,从行人描述特征着手,可将此阶段产生的方法分为基于全局特征的方法、基于人体部件特征的方法和基于立体视觉特征的方法三大类。Dalal和Triggs在2005年提出梯度方向直方图(HistogramofOrientedGradient,HOG)的概念,并在发表于CVPR(IEEEConferenceonComputerVisionandPatternRecognition)会议上的论文《Histogramsoforientedgradientsforhumandetection》中将其用于行人检测,该算法在MIT行人数据库上获得近乎100%的检测成功率,在包含视角、光照和背景等变化的INRIA行人数据库上 ...
【技术保护点】
1.一种基于深度学习的复杂背景行人检测方法,其特征在于,所述方法包括以下步骤:步骤1、以分类网络VGG16为基础网络搭建SSD目标检测框架,将SSD目标检测框架中的分类参数修改为二分类,构建SSD行人检测框架;步骤2、分别在SSD行人检测框架训练神经网络的第一、二层特征提取层中间和第三、四层特征提取层中间各添加两组Inception组件,替代原有卷积核大小为3x3的四层卷积层,且保持第三、四层特征提取层的宽度和高度一致,即输出特征尺寸均为10x10;步骤3、通过双线性插值的方式将第二、四层特征提取层的宽度和高度变换为38,得到新的第二、四层特征提取层,且其宽度和高度与第一层特征提取层一致,删除SSD行人检测框架训练神经网络的后两层特征提取层;步骤4、通过Concatenation操作将含有Inception组件的第一、二、四层特征提取层融合成新的特征提取层,以融合所得新特征提取层为基础层,逐层减小网络的宽度和高度,构建其它五层特征提取层,形成新的特征提取网络;步骤5、抽取新特征提取网络的第一层特征提取层,在其后端添加Inception组件,通过Pooling和Concatenation ...
【技术特征摘要】
1.一种基于深度学习的复杂背景行人检测方法,其特征在于,所述方法包括以下步骤:步骤1、以分类网络VGG16为基础网络搭建SSD目标检测框架,将SSD目标检测框架中的分类参数修改为二分类,构建SSD行人检测框架;步骤2、分别在SSD行人检测框架训练神经网络的第一、二层特征提取层中间和第三、四层特征提取层中间各添加两组Inception组件,替代原有卷积核大小为3x3的四层卷积层,且保持第三、四层特征提取层的宽度和高度一致,即输出特征尺寸均为10x10;步骤3、通过双线性插值的方式将第二、四层特征提取层的宽度和高度变换为38,得到新的第二、四层特征提取层,且其宽度和高度与第一层特征提取层一致,删除SSD行人检测框架训练神经网络的后两层特征提取层;步骤4、通过Concatenation操作将含有Inception组件的第一、二、四层特征提取层融合成新的特征提取层,以融合所得新特征提取层为基础层,逐层减小网络的宽度和高度,构建其它五层特征提取层,形成新的特征提取网络;步骤5、抽取新特征提取网络的第一层特征提取层,在其后端添加Inception组件,通过Pooling和Concatenation操作将该Inception组件的输出特征与特征提取网络的后五层特征提取层逐层进行融合,形成最终的特征提取网络;步骤6、在步骤3和步骤4所添加Inception组件中的每层卷积层后端添加BatchNormalization层,并在每个Inception组件的融合特征层后端添加两层卷积核大小为1x1的卷积层,形成Inception组件的最终输出特征;步骤7、获取训练图像并进行标注,使用SSD行人检测框架自带的数据增广操作对标注好的训练图像进行预处理,并以步骤2-5所得神经网络作为训练网络,修改SSD行人检测框架对应参数并设置训练策略,使用预处理后的训练图像训练模型,当模型达到最大训练次数或者拟合时停止训练;步骤8、设定IOU交并比阈值、置信度阈值、非极大值抑制阈值,获取测试图像并调用训练好的模型进行前向计算得到检测结果,根据网络的检测结果在测试图像上画出相应的行人框,得到检测后的测试图像。2.根据权利要求1所述的一种基于深度学习的复杂背景行人检测方法,其特征在于:所述步骤1中,SSD目标检测框架包含基础网络、特征提取网络和分类检测模块三部分,其中基础网络负责初步特征提取,特征提取网络负责多尺度特征提取,分类检测模块负责对特征提取网络所提取的特征进行分类;SSD目标检测框架的默认输入尺寸大小为300x300;其中,基础网络为VGG16中的conv1_1-fc7层,其中VGG16的全连接层fc6、fc7被改为卷积核大小为3x3的卷积层;另外,SSD目标检测框架的特征提取网络包含六层特征提取层,分别为:conv4_3、fc7、conv6_2、conv7_2、conv8_2、conv9_2,其中conv4_3和fc7为基础网络VGG16的卷积层。3.根据权利要求2所述的一种基于深度学习的复杂背景行人检测方法,其特征在于:所述步骤2中,通过Concatenation操作将卷积核大小分别为5x5、3x3、1x1的三层并联卷积层进行融合,组成Inception组件,其中卷积...
【专利技术属性】
技术研发人员:胡永健,蔡佳然,刘琲贝,王宇飞,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。