一种基于交通场景的多支路目标检测方法技术

技术编号:21715171 阅读:151 留言:0更新日期:2019-07-27 19:25
本发明专利技术请求保护一种基于交通场景的多支路目标检测方法,包括步骤:S1获取交通路口拍摄的高清照片构建相关数据集,对交通场景图像进行分类和标注,生成相应的类别标签,并划分训练集和测试集;S2搭建基于深度学习的具有32层的网络模型,采用k‑means聚类算法获取9个锚框先验,将这9个锚框平均分配到三个检测分支中,该网络将检测任务转化为回归任务,在一个网络上同时完成目标的分类与边界框的回归,即将目标检测算法的候选框生成、特征提取、分类及位置精修这4个步骤统一到一个深度网络框架之内,采用反向传播和随机梯度下降方法对网络模型进行端到端训练,通过迭代训练使损失函数降到一个小的范围然后停止训练。

A Multi-Branch Target Detection Method Based on Traffic Scene

【技术实现步骤摘要】
一种基于交通场景的多支路目标检测方法
本专利技术属于深度学习、图像处理、模式识别等领域,尤其是涉及一种基于深度学习的采用多个分支来对交通场景中不同尺度大小的目标进行检测的目标检测方法。
技术介绍
从交通场景中自动地检测交通场景中的各种目标(例如车辆和行人)是许多智能交通系统的首要处理步骤。对主要道路进行合理的交通管理和控制可以减少诸如交通事故、道路拥堵等问题的发生。在过去的十年中,许多学者与研究人员在这一领域做出了相当大的努力,并提出了一些具有挑战性的基准数据集,如KITTI和LSVH等,用于评价和比较各种检测算法的性能。由于卷积神经网络提取的特征比传统人工特征的泛化性能好,因此基于CNN的目标检测方法在车辆检测、行人检测以及各种其他物体的检测任务方面取得了惊人的成功。由于基于滑动窗口的对象检测算法的效率低、计算成本巨大,对象检测的两种其他方法,即基于候选区域的目标检测算法和基于回归的目标检测算法受到了广泛的关注。前者首先使用诸如选择性搜索(selectivesearch)和edgeboxes这样的区域生成算法来生成候选区域(即regionproposal),然后通过卷积神经网络对其进行处理。这些方法具有较高的精度,但是不能满足实时性的要求。其中的代表性算法包括RCNN、FastRCNN、FasterRCNN、MaskRCNN等,它们是典型的two-stage方法(首先使用区域生成方法生成候选区域,然后对候选区域进行分类和回归)。另一种是基于回归方法的目标检测算法,这一方法将目标检测问题转化为回归问题,直接预测出对象的位置和分类。这些方法是典型的one-stage方法,它们的检测速度较快,但是精度一般低于two-stage方法。代表性算法有YOLO、SSD、YOLOv2、YOLOv3等。尽管CNN的性能强大,但是当将CNN应用于交通场景的目标检测时,面临的难题之一是传统的基于CNN的方法对尺度敏感,CNN的全连接层需要固定尺寸的输入,而传统的ROIPooling层采用简单复制候选区域的某些部分以填充额外的空间来获得指定大小的特征映射的方案会破坏小目标的原始结构。在网络训练过程中,填充复制值不仅会导致前向传播过程中的特征表示不准确,而且在反向传播过程中会积累误差。不准确的表示和积累的误差会误导了网络训练并防止网络正确地检测出小尺度的对象。此外,当特征映射达到某一深度时,小尺度的目标可能已经丢失了它的信息,这无疑使得这些方法更难以准确地检测出小目标。针对以上这些问题,本文提出了一个针对交通场景的具有32层的卷积神经网络来对大、中、小各种不同尺度的物体进行检测,具有较高的精度和检测速度,能基本满足工业上的实时性需要。
技术实现思路
本专利技术旨在解决以上现有技术的问题。提出了一种具有检测准确度高与速度快的优点的基于交通场景的多支路目标检测方法,该网络具有三个检测分支,分别采用16×16,32×32和64×64的特征图来优化对于大、中、小型目标的检测,其准确度高,召回率高,并且具有实时检测的优点。本专利技术的技术方案如下:一种基于交通场景的多支路目标检测方法,其包括以下步骤:S1、获取交通路口拍摄的高清照片构建相关数据集,对交通场景图像进行分类和标注,生成相应的类别标签,并划分训练集和测试集,用于后续的网络训练及测试;S2、搭建基于深度学习的具有32层的网络模型,其中17个卷积层用于提取特征,6个最大池化层用于简化特征图,2个上采样层用于获取高维特征图,4个连接层用于获取指定层的特征图或者将不同层的特征图进行拼接,此外还有3个Yolo层作为三个检测分支。采用k-means聚类算法获取9个锚框先验,将这9个锚框平均分配到三个检测分支中,即一个分支为每一个可能的目标预测3个边界框,每个边界框除了要预测4个坐标和1个置信度之外,还需要预测7个类别分。作为一个基于回归方法的网络,该网络将检测任务转化为回归任务,在一个网络上同时完成目标的分类与边界框的回归,即将目标检测算法的候选框生成、特征提取、分类及位置精修这4个步骤统一到一个深度网络框架之内,利用NVIDIAGTX1060GPU进行并行运算。在该网络中使用LeakyRelu函数作为激活函数,采用反向传播和随机梯度下降方法对网络模型进行端到端训练,通过迭代训练使损失函数降到一个小的范围然后停止训练;S3、利用步骤S1中划分好的测试集对步骤S2中训练好的网络模型进行测试,并根据测试结果对网络参数进一步进行调整。进一步的,所述S2目标的边界框回归过程通过以下公式计算,首先通过tx=Gx-Cx,ty=Gy-Cy,tw=log(Gw/Pw),th=log(Gh/Ph)这四个公式计算网络的预测值tx、ty、tw、th,其中(tx,ty)是真实框的中心到负责对目标进行预测的单元格左上角的偏移量,(tw,th)是边界框大小的缩放比例,根据此缩放比例将边界框缩放到与真实框相似的大小。如果负责预测的单元格与图像左上角的偏移为(Cx,Cy),且锚框先验的长宽分别为Pw、Ph,则待预测的边界框的坐标可以通过以下公式进行计算:bx=σ(tx)+Cx,by=σ(ty)+Cy,这四个公式计算出预测框的坐标,其中bx,by,bw,bh分别为预测框的中心坐标及其长和宽。在上述公式中,Gx、Gy、Gw、Gh分别代表真实框的中心坐标及其长和宽,Pw、Ph分别代表锚框的宽和高。经过以上计算,我们即获得了边界框的预测坐标输出。公式中的σ(·)为logistic函数,它的使用是为了将tx和ty的值压缩到[0,1]区间,此操作能确保待预测的目标的中心落在此单元格内,防止偏差过大。进一步的,所述步骤S2的置信度通过以下公式计算,confidence=Pr(Object)*IOU(truth|pred),然后将置信度分别乘以7个类别分即得到了该边界框基于某一具体类别的置信度分,其计算公式如下,式中,Pr(Object)表示预测框中有无目标的置信度,IOU(truth|pred)表示预测框与真实框的重叠率,Pr(Classi|Object)表示在有目标的条件下含有目标i的概率,Pr(Classi)表示预测框中含有目标i的概率。综上所述,confidence值包含了预测框中含有目标的置信度(含有目标则为1,否则为0)以及这个边界框预测的有多准两重信息;confidencescore代表了预测的边界框中包含某一特定类别的概率。进一步的,所述步骤S2网络训练的损失函数通过以下公式计算,式中,ci表示真实的类别,表示预测的类别,(xi,yi,wi,hi)表示真实框的中心坐标及其长宽,表示预测框的中心坐标及其长宽。S表示将原图划分为S×S的网格,在此网络中分别为16,32和64;B表示每个单元格需要预测B个边界框,此处为3;λnoobj,λobj,λclass,λcoord,表示相应的权重参数,其中λnoobj、λobj分别表示不含目标及含有目标的边界框的预测所占的权重,λclass表示含有目标的边界框的各个类别的置信度预测权重,λcoord为坐标预测权重,和分别表示第i个网格中的第j个单元格是否负责目标的预测。本专利技术的优点及有益效果如下:本专利技术提出了一种具有32层的基于交通场景的多分支目标检测网络。该网络包括以下创新点:1、本文档来自技高网
...

【技术保护点】
1.一种基于交通场景的多支路目标检测方法,其特征在于,包括以下步骤:S1、获取交通路口拍摄的高清照片构建相关数据集,对交通场景图像进行分类和标注,生成相应的类别标签,并划分训练集和测试集,用于后续的网络训练及测试;S2、搭建基于深度学习的具有32层的网络模型,其中17个卷积层用于提取特征,6个最大池化层用于简化特征图,2个上采样层用于获取高维特征图,4个连接层用于获取指定层的特征图或者将不同层的特征图进行拼接,此外还有3个Yolo层作为三个检测分支,采用k‑means聚类算法获取9个锚框先验,将这9个锚框平均分配到三个检测分支中,即一个分支为每一个可能的目标预测3个边界框,每个边界框除了要预测4个坐标和1个置信度之外,还需要预测7个类别分,作为一个基于回归方法的网络,该网络将检测任务转化为回归任务,在一个网络上同时完成目标的分类与边界框的回归,即将目标检测算法的候选框生成、特征提取、分类及位置精修这4个步骤统一到一个深度网络框架之内,利用NVIDIA GTX 1060 GPU进行并行运算。在该网络中使用Leaky Relu函数作为激活函数,采用反向传播和随机梯度下降方法对网络模型进行端到端训练,通过迭代训练使损失函数降到一个小的范围然后停止训练;S3、利用步骤S1中划分好的测试集对步骤S2中训练好的网络模型进行测试,并根据测试结果对网络参数进一步进行调整。...

【技术特征摘要】
1.一种基于交通场景的多支路目标检测方法,其特征在于,包括以下步骤:S1、获取交通路口拍摄的高清照片构建相关数据集,对交通场景图像进行分类和标注,生成相应的类别标签,并划分训练集和测试集,用于后续的网络训练及测试;S2、搭建基于深度学习的具有32层的网络模型,其中17个卷积层用于提取特征,6个最大池化层用于简化特征图,2个上采样层用于获取高维特征图,4个连接层用于获取指定层的特征图或者将不同层的特征图进行拼接,此外还有3个Yolo层作为三个检测分支,采用k-means聚类算法获取9个锚框先验,将这9个锚框平均分配到三个检测分支中,即一个分支为每一个可能的目标预测3个边界框,每个边界框除了要预测4个坐标和1个置信度之外,还需要预测7个类别分,作为一个基于回归方法的网络,该网络将检测任务转化为回归任务,在一个网络上同时完成目标的分类与边界框的回归,即将目标检测算法的候选框生成、特征提取、分类及位置精修这4个步骤统一到一个深度网络框架之内,利用NVIDIAGTX1060GPU进行并行运算。在该网络中使用LeakyRelu函数作为激活函数,采用反向传播和随机梯度下降方法对网络模型进行端到端训练,通过迭代训练使损失函数降到一个小的范围然后停止训练;S3、利用步骤S1中划分好的测试集对步骤S2中训练好的网络模型进行测试,并根据测试结果对网络参数进一步进行调整。2.根据权利要求1所述的一种基于交通场景的多支路目标检测方法,其特征在于,所述步骤S2目标的边界框回归过程通过以下公式计算:首先通过tx=Gx-Cx,ty=Gy-Cy,tw=log(Gw/Pw),th=log(Gh/Ph)这四个公式计算网络的预测值tx、ty、tw、th,其中(tx,ty)是真实框的中心到负责对目标进行预测的单元格左上角的偏移量,(tw,th)是边界框大小的缩放比例,根据此缩放比例将边界框缩放到与真实框相似的大小,如果负责预测的单元格与图像左上角的偏移为(Cx,Cy),且锚框先验的长宽分别为Pw、Ph,则待预测的边界框的坐标可以通过以下公式进行计算:bx=σ(tx)+Cx,by=σ(ty)+Cy,这四个公式计算出预测框的坐标,其中bx,by,bw,bh分别为预测框的中心坐标及其长和宽,在上述公式中,Gx、Gy、Gw、Gh分别代表真实框的中心坐标及其长和宽,Pw、Ph分别代表锚框的宽和高,经过以上计算,我们即获得了边界框的预测坐标输出,公式中的σ(·)为logistic函数,它的使用是...

【专利技术属性】
技术研发人员:丰江帆王凡杰冯思琴
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1