一种基于深度信息估计的单目图像三维目标检测方法技术

技术编号:30151703 阅读:16 留言:0更新日期:2021-09-25 15:00
本发明专利技术提供了一种基于深度信息估计的单目图像三维目标检测方法,该单目图像三维目标检测方法仅需输入单目图像,利用FasterR

【技术实现步骤摘要】
一种基于深度信息估计的单目图像三维目标检测方法


[0001]本专利技术涉及图像处理
,尤其涉及一种基于深度信息估计的单目图像三维目标检测方法。

技术介绍

[0002]目标检测的任务是识别出给定图像中所有感兴趣的目标,确定它们的类别和位置,其可以应用到各个场景。而通常所说的三维目标检测主要针对自动驾驶环境下以车辆为主要目标的检测任务,给出车辆目标等的三维检测结果,包括目标的类别、二维检测框、三维检测框等。自动驾驶车辆主动安全技术的研究重点之一是道路环境感知技术,而道路目标的准确检测则是道路环境感知技术的核心部分。因此,更好地完成道路目标检测任务才能保证车辆对道路环境感知的准确性和及时性,从而精确地指导智能车辆的决策控制,确保自动驾驶的安全性。
[0003]传统的目标检测方法,其存在的问题主要包括两个方面:一是基于滑动窗口的区域选择策略没有针对性,复杂度高,窗口冗余;二是手工设计的特征对于多样性的变化并没有很好的鲁棒性。因而随着人工神经网络和深度学习的发展,主流的目标检测方法已经选择使用基于深度学习卷积神经网络的方法来完成。
[0004]目前针对道路环境的目标检测方法,根据输入数据的不同可分为基于激光雷达的方法和基于图像的方法。基于图像的方法,因为使用的是较为常见的相机获取的平面图像,因而更具有实际应用价值,就目前而言,方法较为完善、应用更为广泛的是二维目标检测,其更倾向于解决目标分类及二维框定任务,无法获取待检测目标的三维信息,无法满足自动驾驶车辆对于真实世界三维信息的需求。考虑到上述二维检测结果在三维信息需求上的不足以及激光雷达方法的昂贵性,催生了近年来对于基于单目图像的三维目标检测方法的研究。
[0005]现有的技术多是直接利用或间接结合激光雷达点云数据去完成道路环境下的三维目标检测任务,没有纯粹基于图像的方法,或多或少利用了点云数据在目前三维目标检测领域的优势,而激光雷达的昂贵性限制了方法在实际自动驾驶车辆上的量产使用。与此同时,基于图像的方法往往没有充分利用目标在图像中的位置信息,其在卷积神经网络特征提取环节的丢失会影响最终对于目标位置的估计预测。此外,现有的一些方法需要较为大量的训练时间、存储空间和计算资源。
[0006]相对上述两者而言,基于单目图像的三维目标检测发展起步较晚,本专利技术即提出一种基于深度信息估计的单目图像三维目标检测方法,主要解决的问题如下:
[0007](1)现有的基于单目图像的三维目标检测方法的检测精度普遍不高,针对此问题提出一种基于深度信息估计的单目图像三维目标检测方法,相较于已有方法一定程度上提升检测结果精度。
[0008](2)平面图像经过卷积神经网络的处理,在经过特征提取获取特征图环节后会丢失图像中本就不多的目标位置信息,对于最终的目标位置的估计预测影响较大。已有方法
往往未能充分利用目标在图像中的位置信息,本专利技术即选择设计引入深度信息估计分支以改善解决此问题。
[0009](3)现有的一些方法需要较为大量的训练时间、存储空间和计算资源,针对此问题,本专利技术提出的目标检测网络模型可以进行端到端的联合训练,通过多任务的训练学习,提高计算资源利用效率。

技术实现思路

[0010]针对上述存在的问题或缺点,本专利技术提出一种基于深度信息估计的单目图像三维目标检测方法,仅输入单目图像完成三维目标检测任务,相较于现有方法,在一定程度上提升检测结果精度。引入深度信息估计分支以充分利用目标在图像中的位置信息,解决目标在经过卷积神经网络特征提取环节之后会丢失位置信息的问题,提升最终的检测精度。此外,针对需要大量的训练时间、存储空间和计算资源问题,本专利技术提出的目标检测神经网络模型可以进行端到端的联合训练,通过多任务的训练学习,提高计算资源利用效率。
[0011]本专利技术提供了一种基于深度信息估计的单目图像三维目标检测方法,主要包括以下步骤:
[0012]S1:输入获取的单目图像,利用Faster R

CNN网络模型及其区域提议网络(RPN),得到目标的候选区域;
[0013]S2:使用MonoDepth算法来构建深度信息估计分支网络,将上述单目图像输入至该深度信息估计分支网络,输出视差信息,继而得到深度信息,通过获取图像中各像素点的三维坐标信息构建点云,进而得到对应区域;
[0014]S3:对步骤S1的候选区域和步骤S2的对应区域分别进行池化处理,然后对池化处理后得到的特征进行融合,利用卷积神经网络对融合后的特征进行目标的各个参数的估计预测,预测结束即完成了单目图像三维目标检测过程。
[0015]进一步地,得到目标的候选区域的过程为:区域提议网络通过卷积特征图和锚点机制生成一系列包含目标的提议区域,在每个矩形区域生成具有预先设定比例和纵横比的二维锚点,然后,该区域提议网络通过目标分数预测和二维边界框回归输出最终的候选区域。
[0016]进一步地,通过以下公式获取某像素点在三维空间中相机坐标系下的坐标:
[0017][0018]其中,(I
x
,I
y
)为单目图像中某像素点坐标,I
d
为预测得到的视差,f为相机焦距,C
b
为双目相机的基线距离,(C
x
,C
y
)为像主点坐标;
[0019]通过上述方法,进而获取图像中各个像素点的三维坐标信息,根据该三维坐标信息在整个场景中构建点云,再将预计得到的点云编码为三通道输入的对应区域。
[0020]进一步地,对步骤S1的候选区域进行最大池化处理。
[0021]进一步地,对步骤S2的对应区域进行平均池化处理。
[0022]进一步地,将池化处理的候选区域和对应区域的尺寸保持一致后进行融合处理,
将对应区域直接串接在候选区域后面。
[0023]进一步地,各个参数的估计预测具体包括类别及二维检测框、尺度估计、方向估计和三维位置估计。
[0024]本专利技术提供的技术方案带来的有益效果是:
[0025]1.仅依靠输入的单目图像完成三维目标检测任务,而不需要较为主流的激光雷达点云数据。
[0026]2.针对经过卷积神经网络易丢失的目标在图像中的位置信息,通过引入深度信息估计,可以充分利用目标在图像中的位置信息,提升结果检测精度。
[0027]3.整个目标检测网络模型可以进行端到端的联合训练,通过多任务的训练学习,提高计算资源利用效率,一定程度上改善需要大量训练时间、存储空间和计算资源的问题。
附图说明
[0028]下面将结合附图及实施例对本专利技术作进一步说明,附图中:
[0029]图1是本专利技术实施例中一种基于深度信息估计的单目图像三维目标检测方法的框架图。
[0030]图2是本专利技术实施例中FasterR

CNN网络模型及区域提议网络(RPN)。
具体实施方式
[0031]为了对本专利技术的技术特征、目的和效果有更加清本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度信息估计的单目图像三维目标检测方法,其特征在于:包括以下步骤:S1:输入获取的单目图像,利用Faster R

CNN网络模型及其区域提议网络,得到目标的候选区域;S2:使用MonoDepth算法来构建深度信息估计分支网络,将上述单目图像输入至该深度信息估计分支网络,输出视差信息,继而得到深度信息,通过获取图像中各像素点的三维坐标信息构建点云,进而得到对应区域;S3:对步骤S1的候选区域和步骤S2的对应区域分别进行池化处理,然后对池化处理后得到的特征进行融合,利用卷积神经网络对融合后的特征进行目标的各个参数的估计预测,预测结束即完成了单目图像三维目标检测过程。2.如权利要求1所述的一种基于深度信息估计的单目图像三维目标检测方法,其特征在于:步骤S1中,得到目标的候选区域的过程为:区域提议网络通过卷积特征图和锚点机制生成一系列包含目标的提议区域,在每个矩形区域生成具有预先设定比例和纵横比的二维锚点,然后,该区域提议网络通过目标分数预测和二维边界框回归输出最终的候选区域。3.如权利要求1所述的一种基于深度信息估计的单目图像三维目标检测方法,其特征在于:步骤S2中,通过以下公式获取某像素点在三维空间中相机坐标系下的坐标:其中...

【专利技术属性】
技术研发人员:叶青松刘玮马云段帅东高明强
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1