一种基于深度学习的自动驾驶场景关键目标检测提取方法技术

技术编号:21185216 阅读:30 留言:0更新日期:2019-05-22 15:50
本发明专利技术涉及一种基于深度学习的自动驾驶场景关键目标检测提取方法,其特征在于,该方法基于改进单次多框检测器进行驾驶场景中的关键目标检测、语义标注和目标框选,所述改进单次多框检测器的训练过程具体为:1)获取训练集;2)生成先验框,将先验框与对应图片的带有类标和框标注的真实目标进行匹配,形成正负样本;3)利用损失函数迭代更新单次多框检测器的模型参数,所述迭代更新基于动量优化的梯度更新实现。与现有技术相比,本发明专利技术具有检测精度高、能够对小目标进行检测等优点。

A Key Object Detection and Extraction Method for Autopilot Scene Based on Deep Learning

The present invention relates to a method of key target detection and extraction in driving scene based on in-depth learning, which is characterized by improving single multi-frame detector to detect, annotate and select key targets in driving scene. The training process of the improved single multi-frame detector is as follows: 1) acquiring training set; 2) generating a priori box and corresponding priori box. The real objects with class labels and frame labels are matched to form positive and negative samples. 3) The model parameters of a single multi-frame detector are updated iteratively by using loss function, which is realized by gradient updating based on momentum optimization. Compared with the prior art, the invention has the advantages of high detection accuracy and small target detection.

【技术实现步骤摘要】
一种基于深度学习的自动驾驶场景关键目标检测提取方法
本专利技术涉及一种自动驾驶场景目标检测方法,尤其是涉及一种基于深度学习的自动驾驶场景关键目标检测提取方法。
技术介绍
随着深度学习技术在图像与视频领域的飞速发展,一系列与深度学习相关的目标检测算法优势逐渐显现。在处理驾驶视野场景或者其他较为复杂的检测场景时,基于深度学习与视觉的目标识别与检测算法有相当大的应用空间。无人驾驶视觉感知技术中已经有部分基于深度网络的目标检测算法被提出,将深度学习应用于驾驶场景下的目标检测已经成为当前的研究热点。早期的研究将多尺度卷积神经网络应用于交通标志分类任务中,取得高准确率。之后有大量研究针对单目视觉下,借助CNN(ConvolutionalNeuralNetwork)特征提取框架与对象区域提议框,同时利用传统机器学习的各种分类器,基本实现自动驾驶下的目标识别。目前部分研究提出利用新的多任务学习(Multi-TaskLearning,MTL)方法,用基于笛卡尔积的多任务组合策略对目标检测和距离预测联合建模,实现自动驾驶中的特定危险目标的检测。也有部分研究通过添加语义信息辅助检测,改进原始卷积神经网络的结构,提高行人检测的准确率与效率。最近有部分研究提出了利用较新的深度物体检测框架如R-FCN,并改进其网络结构,实现自动驾驶场景下的交通标志检测。基于深度神经网络的目标检测技术能够有效地自动的从图像中提取特征信息,并完成目标的识别与框选,因此该技术在无人驾驶视觉识别问题中取得了令人满意的实验结果。尽管如此,该技术目前还存在以下缺陷:第一,现有研究大都针对行人、交通标志或障碍物等单类目标的检测,缺乏通用性的关键目标识别框架。第二,部分将视觉深度学习应用于无人驾驶的视觉识别无法实现准确的目标自动框选,且针对远距离的小目标的检测效果并不理想。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种基于深度学习的自动驾驶场景关键目标检测提取方法。本专利技术的目的可以通过以下技术方案来实现:一种基于深度学习的自动驾驶场景关键目标检测提取方法,该方法基于改进单次多框检测器进行驾驶场景中的关键目标检测、语义标注和目标框选,所述改进单次多框检测器的训练过程具体为:1)获取训练集;2)生成先验框,将先验框与对应图片的带有类标和框标注的真实目标进行匹配,形成正负样本;3)利用损失函数迭代更新单次多框检测器的模型参数,所述迭代更新基于动量优化的梯度更新实现。进一步地,所述基于动量优化的梯度更新公式为:v'dW=μvdW+(1-μ)dWv'db=μvdb+(1-μ)dbW'=W-ηv'dWb'=b-ηv'db其中,W和b分别为当前的权重项和常数项,W'和b'分别为更新后的权重项和常数项,dW和db为加速项,vdW和vdb分别为当前权重项和常数项的动量项,v'dW和v'db分别为更新后的权重项和常数项的动量项,μ为动量因子,η为学习率。进一步地,所述迭代更新过程中,采用三段阶梯式学习率下降策略获得学习率:式中,d1、d2、d3分别为三阶段的学习率下降因子,ls为训练的初始学习率,t为训练的迭代步数,t1、t2分别为三阶段的学习率下降边界。进一步地,所述生成先验框时,针对大检测目标,Conv4_3、Conv10_2和Conv11_2层生成的特征图仅使用4个先验框;针对小检测目标,Conv7、Conv8_2和Conv9_2层生成的特征图使用如下策略:其中,r为增添或改变的长宽比对应的序号下标。进一步地,所述大检测目标包括机动车、非机动车和人;所述小检测目标包括交通信号灯、提示类交通标志、指路类交通标志和警示类交通标志。进一步地,所述步骤2)中,通过以下方式形成正样本:a)将与一类别的真实目标的交并比最大且同时大于阈值的先验框作为对应类别的正样本;b)若一先验框与某些类别的真实目标的交并比大于阈值,则取交并比的那个真实目标作为该先验框的匹配框,先验框设为该类别的正样本。进一步地,所述步骤2)中,采用难例挖掘方法获得负样本,具体地:按照先验框的类别置信度进行降序排列,选取置信度最低的k个先验框作为负样本。进一步地,所述改进单次多框检测器的测试过程具体为:11)获取测试图片对应的先验框,每个先验框生成一个预测框;12)对于每个预测框,将类别置信度最大的类别确定为其类别;13)过滤属于背景的预测框和置信度值低于最低阈值的预测框;14)对剩余预测框进行解码,获得各预测框的位置参数;15)对各预测框进行缩减处理;16)对各预测框按类别置信度降序排列,保留top-k个预测框;17)采用非极大值抑制算法过滤重叠度大于设定值的预测框。与现有技术相比,本专利技术针对自动驾驶场景下的关键目标检测任务,提出基于改进单次多框检测器(SSD_ARC)的关键目标检测方法,实现快速多目标识别、语义标注和定位框选,具有以如下有益效果:第一,本专利技术提出采用基于深度卷积网络VGG的新型检测算法单次多框检测器(SSD)进行驾驶场景中的关键目标检测、语义标注和目标框选,最终达到提高检测精度的效果。第二,本专利技术针对驾驶场景,提出了改进的SSD_ARC算法。通过优化梯度更新算法、学习率下降策略和先验框生成策略,在实际驾驶场景中9类关键目标检测中提高了检测精度,检测难度较大的小目标的检测结果得到提升。第三,本专利技术在实际驾驶场景视频目标检测中取得良好效果,模型泛化性较强,能应对不同环境的检测任务,检测速度满足实时检测需求。第四,本专利技术使用了GPU(NvidiaGTX1060)加速处理计算的方式,使得模型处理数据的速度得到提升,同时采用Tensorflow1.6.0(Windows)平台,使得深度网络的构建更为系统化,便于实验测试。附图说明图1为VGG16网络结构;图2为SSD检测器网络结构;图3为阶梯式学习率下降示意图;图4为正负样本生成过程示意图;图5为本专利技术优化训练过程示意图;图6为测试过程示意图;图7为实际检测效果图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本专利技术提供一种基于深度学习的自动驾驶场景关键目标检测提取方法,该方法基于改进单次多框检测器(SSD_ARC,SingleShotMultiboxDetectoronAspectRatiochanging)进行驾驶场景中的关键目标检测、语义标注和目标框选,针对驾驶场景,通过优化梯度更新算法、学习率下降策略和先验框生成策略,提高了检测精度。一、SSD(SingleShotMultiBoxDetector)1、SSD网络结构SSD本质上利用密集采样的思想,基于CNN网络和新增的多尺度特征图来进行目标检测。它借鉴FasterR-CNN中锚(Anchor)的概念,通过尺度不同的先验框来预测目标边界框(BoundingBoxes)。边界框预测同时包含目标类别预测和框选区域预测。SSD采用VGGNet网络作为基础深度学习网络。VGGNet有六种不同的网络结构,但是每种结构都有含有5组卷积,每组卷积都使用3×3的卷积核,每组卷积后链接一个2×2池化层,接下来是三个全连接层(FC),全连接层的配置在所有网络中一致,本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的自动驾驶场景关键目标检测提取方法,其特征在于,该方法基于改进单次多框检测器进行驾驶场景中的关键目标检测、语义标注和目标框选,所述改进单次多框检测器的训练过程具体为:1)获取训练集;2)生成先验框,将先验框与对应图片的带有类标和框标注的真实目标进行匹配,形成正负样本;3)利用损失函数迭代更新单次多框检测器的模型参数,所述迭代更新基于动量优化的梯度更新实现。

【技术特征摘要】
1.一种基于深度学习的自动驾驶场景关键目标检测提取方法,其特征在于,该方法基于改进单次多框检测器进行驾驶场景中的关键目标检测、语义标注和目标框选,所述改进单次多框检测器的训练过程具体为:1)获取训练集;2)生成先验框,将先验框与对应图片的带有类标和框标注的真实目标进行匹配,形成正负样本;3)利用损失函数迭代更新单次多框检测器的模型参数,所述迭代更新基于动量优化的梯度更新实现。2.根据权利要求1所述的基于深度学习的自动驾驶场景关键目标检测提取方法,其特征在于,所述基于动量优化的梯度更新公式为:v'dW=μvdW+(1-μ)dWv'db=μvdb+(1-μ)dbW'=W-ηv'dWb'=b-ηv'db其中,W和b分别为当前的权重项和常数项,W'和b'分别为更新后的权重项和常数项,dW和db为加速项,vdW和vdb分别为当前权重项和常数项的动量项,v'dW和v'db分别为更新后的权重项和常数项的动量项,μ为动量因子,η为学习率。3.根据权利要求1所述的基于深度学习的自动驾驶场景关键目标检测提取方法,其特征在于,所述迭代更新过程中,采用三段阶梯式学习率下降策略获得学习率:式中,d1、d2、d3分别为三阶段的学习率下降因子,ls为训练的初始学习率,t为训练的迭代步数,t1、t2分别为三阶段的学习率下降边界。4.根据权利要求1所述的基于深度学习的自动驾驶场景关键目标检测提取方法,其特征在于,所述生成先验框时,针对大检测目标,Conv4_3、Conv10_2和Conv11_2层生成的特征图仅使用4个先验框;针对小检测目标,Conv7...

【专利技术属性】
技术研发人员:张雪芹魏一凡顾秋晨
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1