一种基于改进型SSD网络的车辆行人多目标检测方法技术

技术编号:20486201 阅读:29 留言:0更新日期:2019-03-02 19:30
本发明专利技术公开了一种基于改进型SSD网络的车辆行人多目标检测方法,步骤S1:将通过行车记录仪采集的海量行车视频,制作为合适大小的图片输入集;步骤S2:根据k‑means聚类方法得到的分布数据修改SSD网络中锚框的尺寸和长宽比,使其适合本数据集;步骤S3:使用Focal Loss函数替换原有的损失函数,取代了了原有的在线选择难分样本(Online Hard Example Mining,OHEM)机制,解决了正负样本失衡的问题;步骤S4:输入数据集,训练新的SSD网络;步骤S5:使用经过训练的SSD网络对实时输入的图片进行目标检测。采用本发明专利技术的技术方案,通过聚类的方法,设定建议锚框的尺寸和长宽比,使之分布与标注框分布相似,从而加快了训练收敛速度,提升了检测的准确率,再通过Focal Loss函数,解决正负样本失衡问题,加大难分样本的重视度,减少了内存的占用,提高了训练速度,同时也提升了整体检测的准确率。

【技术实现步骤摘要】
一种基于改进型SSD网络的车辆行人多目标检测方法
本专利技术属于计算机视觉的目标检测领域,可以应用于无人驾驶,安全监控,道路监督等领域,尤其涉及一种基于改进型单发多目标检测器(SingleShotmultiboxDetector,SSD)网络的车辆行人等多目标检测方法。
技术介绍
随着科技的发展,目标检测已经成为计算机视觉炙手可热的研究方向,可应用于无人驾驶、视频监控、行人检测、海面舰船检测等领域。在之前,对于目标检测基本上都采用传统的机器学习方法,即用算子(如:HOG、SHIFT、Haar)来提取特征,然后选择分类器(如:SVM、Fisher、Adaboosting)对这些特征进行分类,得到目标检测的结果。但是传统的方法存在两个致命的缺点:一、选择的算子不会适应所有的特征的提取,即提取的部分特征没有很强的代表性。二、算子的选择依赖于大量人工经验。所以随着硬件和大数据的发展,基于深度学习的目标检测算法逐渐替代了传统的方法,它克服了以上两个缺点,并且提升了目标检测的精度和鲁棒性,学得的特征更丰富,表达能力更强。目前,基于深度学习的目标检测方法主要分为两类:一类是基于建议框+分类的目标检测方法,典型代表:R-CNN系列(R-CNN、SPPnet、FastR-CNN以及FasterR-CNN),取得了非常好的检测效果,但是在速度方面还远远达不到实时检测的效果。在提高平均准确率(MeanAveragePrecision,简称mAP)的同时兼顾速度,逐渐成为目标检测的研究方向。另一类是基于回归思想的深度学习目标检测模型,典型的代表:YOLO、SSD。其中YOLO虽然快速但是牺牲了很大的精度。而SSD准确率更高、检测速度更快。本专利技术基于SSD模型进行的改进,虽然SSD模型速度可以与YOLO媲美,mAP也高于YOLO但是仍达不到上述第一类算法中的FasterR-CNN的mAP。其主要原因是在FasterR-CNN里面存在RPN网络,可以解决样本失衡的问题,而SSD里面不存在此网络,对样本失衡的问题采用OHEM方法将正负样本比控制在1:3,但是这种方法完全舍弃了易分样本对参数学习的影响,所以并不是解决样本失衡的最佳方法。本专利技术舍弃此机制,通过修改损失函数来解决SSD网络存在的样本失衡问题,从而提高了检测精度。另外,SSD网络对小目标检测效果较差,它只给出300*300和512*512的模型,即原模型只适合分辨率为300*300和512*512的图片,故想要通过输入高分辨率图片来提高对小目标检测的准确度需要重新设定网络中的区域候选框,本专利技术提供了一个完整的修改方案。现有技术的目标检测方法主要存在以下二个问题:1、对小目标检测效果较差,且只给出300*300和512*512的模型,即原模型只适合分辨率为300*300和512*512的图片,无法输入高分辨率图片来增加小目标的分辨率。2、在处理正负样本失衡问题的时候,需要额外的计算时间和存储空间的开销,且完全忽略了易分样本对网络收敛的影响。故,针对现有技术的缺陷,实有必要提出一种技术方案以解决现有技术存在的技术问题。
技术实现思路
有鉴于此,确有必要提供一种基于改进型SSD网络的车辆行人多目标检测方法,将海量行车视频,进行样本制作。使用统计学方法,统计目标检测框的分布,确定锚框的尺度和长宽比,然后删除OHEM机制,使用FocalLoss替换负样本的损失函数,从而生成新的检测网络,输入训练集进行训练。从而大大减少了训练时收敛所需的时间,同时也有效提高了多目标检测的的准确性。为了克服现有技术的缺陷,本专利技术的技术方案如下:一种基于改进型SSD网络的车辆行人多目标检测方法,其特征在于,包括以下步骤:步骤S1:将通过行车记录仪采集的海量行车视频,制作为合适大小的图片输入集;步骤S2:根据k-means聚类方法得到的分布数据修改SSD网络中锚框的尺寸和长宽比,使其适合本数据集;步骤S3:使用FocalLoss函数替换原有的损失函数,取代了了原有的在线选择难分样本(OnlineHardExampleMining,OHEM)机制,解决了正负样本失衡的;步骤S4:输入数据集,训练新的SSD网络;步骤S5:使用经过训练的SSD网络对实时输入的图片进行目标检测;其中步骤S1进一步包括:步骤S11:将视频每隔3秒提取一帧,删除没有目标的图片,存储起来。步骤S12:得到的图片分辨率为3000*2000,剪切为2000*1500大小,可有效的去除路边无效信息的干扰;步骤S13:对得到的图片数据集进行标注,标注信息存入Label数据库里,作为标签;所述步骤S2进一步包括:步骤S21:统计标注信息里各个标签目标框的长宽尺寸,分别记为W,H,画出各个目标框长宽W_H分布图,其中W为横坐标,H为纵坐标,参见图4为部分目标类别W_H分布图;步骤S22:观察W-H图中的分布情况,在每个分布比较集中的的区域中选择一个中心附近的点作为该区域的中心,假设选择k个中心构成集合为WHS={(w1,h1),(w2,h2)…(wk,hk)};步骤S23:计算每个点到每个聚类中心的欧式距离,距离哪个聚类中心近,就让该点属于哪个点群,得到其属于的点群。X={x1,x2…xn}是所用的样本点,其对应的长宽分别为w={wx1,wx2...wxn},h={hx1,hx2...hxn}计算聚类的公式如下:其中dij表示,第i个样本到第j个聚类中心的距离;步骤S24:更新每个点所属的点群后,重新计算每个点群的中心,点群j中每个点的W的集合为w={wj1,wj2...wjm},H的集合为h={hj1,hj2...hjm},那么点群j新的聚类中心的坐标分别为:步骤S25:重复步骤S23,步骤S24,直到聚类中心不再变化。便得到k个聚类中心。步骤S26:根据聚类得出的聚类中心,设定锚框的长宽尺寸和长宽比;所述步骤S3进一步包括:步骤S31:设置FocalLoss需要的参数α,γ;步骤S32:删除原有的OHEM机制;步骤S33:替换原有的损失函数;所述步骤S4进一步包括:步骤S41:初始化修改后的网络;步骤S42:分别从数据库里获取训练图片和对应的标签,输入网络;步骤S43:Softmax函数输出的置信度pi如下:其中D(i)为上一层的输入。计算Pi对D(j)的偏导数:当i等于j时:当i不等于j时:通过最小化置信度损失函数,来更新参数,其中我们设置的置信度损失函数如下:其中Pos为正样本,Neg为负样本。步骤S44:计算新引入的损失函数的梯度,其中已经在步骤S42里求得。综上得,当样本属于负样本时对应新的损失函数的梯度为:通过最小化位置损失函数,来更新参数,其中位置损失函数如下:其中,是真实值和区域候选框之间在(x,y,w,h)四个维度下的相对偏移量,l代表预测的偏移量,d代表区域候选框。当时,表示第i个区域候选框和第j个标签值匹配,且标签所属类别是k,反之,其为零。步骤S45:将新的损失函数的梯度替换原损失函数的梯度,根据链式求导法则以及小批量梯度下降法,进行反向传播,更新参数。步骤S46:训练结束,输出模型。步骤S5进一步包括:步骤S51:去除最后的损失函数层;步骤S52:输入测试数据,得到目标输入每个类别的置信度,以及四个回归量;步骤S本文档来自技高网
...

【技术保护点】
1.一种基于改进型SSD网络的车辆行人多目标检测方法,其特征在于,包括以下步骤:步骤S1:将通过行车记录仪采集的海量行车视频,制作为合适大小的图片输入集;步骤S2:根据k‑means聚类方法得到的分布数据修改SSD网络中锚框的尺寸和长宽比,使其适合本数据集;步骤S3:使用Focal Loss函数替换原有的损失函数选择样本;步骤S4:输入数据集,训练新的SSD网络;步骤S5:使用经过训练的SSD网络对实时输入的图片进行目标检测;其中,步骤S1进一步包括:步骤S11:将视频每隔3秒提取一帧并存储;步骤S12:得到的图片分辨率为3000*2000,剪切为2000*1500大小;;步骤S13:对得到的图片数据集进行标注,标注信息存入Label数据库里,作为标签;所述步骤S2进一步包括:步骤S21:统计标注信息里各个标签目标框的长宽尺寸,分别记为W,H,画出各个目标框长宽W_H分布图,其中W为横坐标,H为纵坐标;;步骤S22:在每个分布比较集中的的区域中选择一个中心附近的点作为该区域的中心,假设选择k个中心构成集合为WHS={(w1,h1),(w2,h2)…(wk,hk)};步骤S23:计算每个点到每个聚类中心的欧式距离,距离哪个聚类中心近,就让该点属于哪个点群,得到其属于的点群;X={x1,x2…xn}是所用的样本点,其对应的长宽分别为w={wx1,wx2...wxn},h={hx1,hx2...hxn}计算聚类的公式如下:...

【技术特征摘要】
1.一种基于改进型SSD网络的车辆行人多目标检测方法,其特征在于,包括以下步骤:步骤S1:将通过行车记录仪采集的海量行车视频,制作为合适大小的图片输入集;步骤S2:根据k-means聚类方法得到的分布数据修改SSD网络中锚框的尺寸和长宽比,使其适合本数据集;步骤S3:使用FocalLoss函数替换原有的损失函数选择样本;步骤S4:输入数据集,训练新的SSD网络;步骤S5:使用经过训练的SSD网络对实时输入的图片进行目标检测;其中,步骤S1进一步包括:步骤S11:将视频每隔3秒提取一帧并存储;步骤S12:得到的图片分辨率为3000*2000,剪切为2000*1500大小;;步骤S13:对得到的图片数据集进行标注,标注信息存入Label数据库里,作为标签;所述步骤S2进一步包括:步骤S21:统计标注信息里各个标签目标框的长宽尺寸,分别记为W,H,画出各个目标框长宽W_H分布图,其中W为横坐标,H为纵坐标;;步骤S22:在每个分布比较集中的的区域中选择一个中心附近的点作为该区域的中心,假设选择k个中心构成集合为WHS={(w1,h1),(w2,h2)…(wk,hk)};步骤S23:计算每个点到每个聚类中心的欧式距离,距离哪个聚类中心近,就让该点属于哪个点群,得到其属于的点群;X={x1,x2…xn}是所用的样本点,其对应的长宽分别为w={wx1,wx2...wxn},h={hx1,hx2...hxn}计算聚类的公式如下:其中dij表示,第i个样本到第j个聚类中心的距离;步骤S24:更新每个点所属的点群后,重新计算每个点群的中心,点群j中每个点的W的集合为w={wj1,wj2...wjm},H的集合为h...

【专利技术属性】
技术研发人员:陈龙朱玉刚樊凌雁杨柳郑雪峰
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1