一种深度感知交通场景多目标检测方法和系统技术方案

技术编号:24036546 阅读:41 留言:0更新日期:2020-05-07 02:04
本发明专利技术公开了一种深度感知交通场景多目标检测方法和系统,包括将待检测图片输入至预先训练完成的Mask R‑CNN模型识别出第一类目标的类别以及目标位置;将识别完成的图片输入至预先训练完成的优化的CNN模型,检测出该图片中第二类目标的类别、置信度以及目标位置。本发明专利技术能够充分考虑交通场景复杂以及现有的目标跟踪算法存在严重的小目标漏检的问题,提出一种优化的CNN模型,在原始CNN网络的优点上,将特征提取网络和检测网络进行优化,训练生成新的模型以进行小目标检测。这种在大目标检测结果上进行小目标检测的方法,可以增强交通场景下多目标的检测效果,并提高小目标识别的准确性。

A multi-target detection method and system for deep perception traffic scene

【技术实现步骤摘要】
一种深度感知交通场景多目标检测方法和系统
本专利技术涉及一种深度感知交通场景多目标检测方法和系统,属于视频图像处理

技术介绍
基于视觉的交通场景感知(TSP)是智能交通系统中众多新兴领域之一,在过去的十年中,这一研究领域得到了广泛研究。TSP旨在提取准确的实时道路信息,对于图像中包含的各种研究对象通常涉及到三个阶段:检测,识别和跟踪。由于跟踪通常依赖于检测和识别的结果,因此有效检测识别研究对象的能力在TSP中起着至关重要的作用,它也一直是识别图像或视频中多目标对象的经典问题。除了传统的图像处理技术,CNN是用于常见的图像分类识别检测任务的强大而有效的方法,延伸出许多优秀的模型和思想。早期的Overfeat在ConvNet中采用滑动窗口选择搜索以进行分类、本地化和检测,RossGirshick通过使用深层的ConvNet对对象进行分类,提出了Region-CNN(R-CNN)。由于计算时间和空间上的缺陷,他在基于快速区域的卷积网络(Fast-RCNN)上采用了池化层,以提高速度和检测精度。后来,更高效的FasterR-CNN基于上述被提出,它直接引入了一个新的区域提议网络以获取候选区域。MaskR-CNN以FasterR-CNN原型,增加了一个分支用于分割任务。这一系列模型在架构上有几个相似之处,一个是它们都是CNN的骨干网,起源于基本的CNN;另一个是增加了一些额外的提议层,例如ROI池和RPN层,它们可以有效地处理主干CNN的特征图。作为一种典型的深度学习模型,CNN由于其强大的特征提取能力而在对象检测方面可以取得出色的性能,但对于一些重要的小视觉对象,如车牌、车内乘客等,它们的标签和信息不足,增加了交通场景信息采集以及深度学习开发的难度。
技术实现思路
本专利技术旨在解决上述现有技术存在的对于一些重要的小视觉对象,如车牌、车内乘客等,它们的标签和信息不足的问题,提供一种深度感知交通场景多目标检测方法和系统。本专利技术采用以下技术方案:一种交通场景感知的多目标检测方法,包括以下步骤:将待检测图片输入至预先训练完成的MaskR-CNN模型提取出第一类目标的类别以及目标位置;将识别完成的图片输入值预先训练完成的优化的CNN模型,检测出该图片中第二类目标的类别、置信度以及目标位置。进一步地,所述优化的CNN模型包括特征提取网络和物体检测网络,所述特征提取网络,用于检测图片的输入特征获得特征图;所述物体检测网络,对待检测图片进行检测,输出该图片中第二类目标的类别、置信度以及目标位置。进一步优选地,所述优化的CNN模型包括特征提取网络和物体检测网络,所述特征提取网络结构包括8层,从第1层到第8层分别为第一卷积神经网络层、第一最大池化层、第二卷积神经网络层、第三卷积神经网络层、第二最大池化层、第四卷积神经网络层、第五卷积神经网络层和第三最大池化层;所述物体检测网络包括三层,第一层是第六卷积神经网络层,第二层是并列的两个卷积神经网络层第七神经网络层和第八神经网络,并同时连接第六神经网络层,第三层是分别连接层第七神经网络层和第八层神经网络层的第九神经网络层和第十神经网络层,所述第九神经网络层输出目标的置信度和目标位置,所述第十神经网络层输出目标的类别。优选的,第一卷积神经网络层为归一化层。在以上技术方案的基础上,进一步优选地,第一卷积神经网络层内核采用11×11,第一卷积神经网络层首先在输入图像中起作用,以保留低级但丰富的细节。第二卷积神经网络层和第三卷积神经网络层以及第四卷积神经网络层和第五卷积神经网络层均为3×3卷积层,使用两个3×3卷积层这种分解卷积的方法,可以引入较少的参数,较少的参数可以实现简化过拟合并且表达更强大的功能,然后进行批归一化。最大池化层的作用是计算每个标识的n×n区域中的最大值,以实现图像下采样。它有助于简化网络计算复杂性,压缩输入特征图并提取主要特征。所述物体检测网络包括三层,第一层是第六卷积神经网络层,第二层是并列的两个卷积神经网络层第七神经网络层和第八神经网络,并同时连接第六神经网络层,第三层是分别连接层第七神经网络层和第八层神经网络层的第九神经网络层和第十神经网络层,所述第九神经网络层输出目标的置信度和目标位置,所述第十神经网络层输出目标的类别。优选的,第一卷积神经网络层为归一化层。其中第七神经网络层和第九神经网络层为内核为1×1的卷积层。以上技术方案中特征提取网络设计一种集成了不同卷积层,局部归一化层和最大池化层的网络,尽可能多地获取目标的详细特征,得到待检测图像的特征图;将特征图输入检测网络,实现从特征图像当中获取到的像素级的目标特征输入进去,可以实现对图像当中目标逐元素进行分类和定位,生成预测对象边界,并且输出预测边界框和地面实况之间的差值。另一方面,本专利技术提供了一种深度感知交通场景多目标检测系统,其特征在于,MaskR-CNN模型,用于将待检测图片输入识别出第一类目标的类别以及目标位置;优化的CNN模型,用于将输入MaskR-CNN模型识别完成的图片,检测出该图片中第二类目标的类别、置信度以及目标位置。进一步地,所述优化的CNN模型包括特征提取网络和物体检测网络,所述特征提取网络,用于检测图片的输入特征获得特征图;所述物体检测网络,对待检测图片进行检测,输出该图片中第二类目标的类别、置信度以及目标位置。本专利技术所达到的有益技术效果:第一,本专利技术采用MaskR-CNN进行大目标对象检测,得到每张图片中可以清晰检测出来的大目标对象。本专利技术选用MaskR-CNN这种网络,不仅可以检测对象,而且能从输入图像中对它们进行分割,但是本专利技术只保留由MASKR-CNN分割出来的尺寸较“大”且清晰的目标对象,因为尺寸较“小”且不清晰的目标对象会导致目标对象识别出现错误;第二,本专利技术采用优化的特征提取器和检测器来进行小目标检测。特征提取器的核心是集成了不同卷积层,局部归一化层和最大池化层的网络,旨在尽可能多地获取小目标的详细特征;检测器的核心是采用1×1卷积核代替普通的全连接层。由于这种1×1卷积核含有局部接收域,因此它们可以在较大的输入图像上滑动以获取多个输出,而不管大小不同的输入图像如何。因此,这种转换提高了中性网络前向传播的效率,并增强了CNN的学习能力,节省了大量时间开销。附图说明图1为本专利技术具体实施例方法的流程示意图。图2为本专利技术具体实施例采用的MASKR-CNN模型结构图;图3为本专利技术具体实施例中用于小目标检测的优化的CNN算法的训练流程图。具体实施方式下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。本专利技术结合MaskR-CNN和一种改进的基于CNN的优化模型,适用于多目标检测。优化之后的小目标检测网络部分的特征提取网络从较低层的细粒度细节中学习大量信息,并通过合理增加特征图的尺寸和下采样来丰富小目标的表示。通过充分利用卷积层,本文档来自技高网
...

【技术保护点】
1.一种深度感知交通场景多目标检测方法,其特征在于,包括:/n将待检测图片输入至预先训练完成的Mask R-CNN模型识别出第一类目标的类别以及目标位置;/n将识别完成的图片输入至预先训练完成的优化的CNN模型,检测出该图片中第二类目标的类别、置信度以及目标位置。/n

【技术特征摘要】
1.一种深度感知交通场景多目标检测方法,其特征在于,包括:
将待检测图片输入至预先训练完成的MaskR-CNN模型识别出第一类目标的类别以及目标位置;
将识别完成的图片输入至预先训练完成的优化的CNN模型,检测出该图片中第二类目标的类别、置信度以及目标位置。


2.根据权利要求1所述的一种深度感知交通场景多目标检测方法,其特征在于,所述优化的CNN模型包括特征提取网络和物体检测网络,所述特征提取网络,用于检测图片的输入特征获得特征图;所述物体检测网络,对待检测图片进行检测,输出该图片中第二类目标的类别、置信度以及目标位置。


3.根据权利要求2所述的一种深度感知交通场景多目标检测方法,其特征在于,所述特征提取网络结构包括8层,从第1层到第8层分别为第一卷积神经网络层、第一最大池化层、第二卷积神经网络层、第三卷积神经网络层、第二最大池化层、第四卷积神经网络层、第五卷积神经网络层和第三最大池化层。


4.根据权利要求3所述的一种深度感知交通场景多目标检测方法,其特征在于,第一卷积神经网络层为归一化层。...

【专利技术属性】
技术研发人员:张登银彭巧孙誉焯周超刘子捷
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1