基于目标表面点与地面映射的单目3D检测模型的构建方法技术

技术编号：38757286 阅读：13 留言：0更新日期：2023-09-10 09:42

本发明专利技术公开了一种基于目标表面点与地面映射的单目3D检测模型的构建方法，单目三维目标检测因其简单、成本低而备受关注。本发明专利技术将物体表面点映射到地平面上，并将物体深度求解问题分解为地面深度估计和表面点高度估计。在训练阶段，密集的地面深度标签由目标表面深度提供。在推理阶段，通过查询地面深度图来恢复表面点深度。结果得到了大量候选的目标深度，并可根据候选目标深度的不确定性进行最终实例深度的组合，最终结合其它预测的三维属性获得目标的3D包围框。此外，由于大多数映射的地面点被物体遮挡，可能会误导网络学习，本发明专利技术设计了一种深度扩充策略来扩展地面标签。本发明专利技术在KITTI数据集中取得了优越的性能，相比于同类的方法性能提升明显。同类的方法性能提升明显。同类的方法性能提升明显。

全部详细技术资料下载

【技术实现步骤摘要】
基于目标表面点与地面映射的单目3D检测模型的构建方法

[0001]本专利技术涉及计算机技术和人工智能领域，深度学习单目3D目标检测领域，具体来说是一种基于目标表面点与地面映射的单目3D检测模型的构建方法。

技术介绍

[0002]3D目标检测在自动驾驶和其他视觉感知任务中的应用越来越受到人们的关注。基于激光雷达涉及昂贵的传感器，基于立体的探测器需要精确的在线校准，而单目3D物体检测因其简单和成本的优势成为一种很有前途的解决方案。单目方法的核心挑战是缺乏明确的深度线索，这极大地限制了检测性能。
[0003]直接从图像中推断物体深度是一个病态问题。不同的深度线索已被用于例如深度估计。一些工作采用3D
‑
2D几何投影约束，包括基于高度和基于关键点的方法来恢复深度。少数工作考虑地平面先验，从地面深度估计目标深度。
[0004]在主流的三维物体检测框架中，物体以其中心点表示，因此3D物体检测是基于局部特征的，有利于物体内在属性的学习。然而，深度估计依赖于全局场景信息。同时，在训练过程中只使用实例深度或关键点深度进行监督，因此存在深度稀疏问题。

技术实现思路

[0005]本专利技术的目的在于以CenterNet检测架构为基础，预测密集的地面深度图，在推理阶段，目标的深度从地面深度图中进行查询和采样，以获取更准确和可靠的目标深度，构建一种基于目标表面点与地面映射的单目3D检测模型。该模型在主流的3D目标检测数据集KITTI中取得了最好的性能表现，相比同类型的方法，性能提升明显。/>[0006]实现本专利技术目的的具体技术方案是：
[0007]一种基于目标表面点与地面映射的单目3D检测模型的构建方法，该方法包括如下步骤：
[0008]步骤1：训练阶段，将道路场景图片中出现的每个目标即车辆、行人和骑行者的2D包围框划分为s*s个网格，每个网格的中心代表一个表面点，利用相机透视几何公式将表面点映射到目标下面的地面上，获取s*s个地面点深度的真实标签；
[0009]步骤2：对于每一个映射得到的地面点，保持像素坐标的v轴坐标不变，将每一个地面点在u轴上扩充为m个点，扩充之后的地面点与原来的地面点保持相同的深度，对于每一个目标能够产生m*s*s个地面点深度的真实标签；
[0010]步骤3：根据步骤2生成的真实标签，采用空洞卷积训练一张与道路场景图片尺寸相同的地面深度图；
[0011]步骤4：推理阶段，每个目标表面点的深度从训练好的地面深度图中查询，然后将每个目标的s*s个表面点的深度组合成最终目标3D中心的深度，与3D基础头预测的其他三维属性组合成为目标的3D包围框。
[0012]步骤1所述将表面点映射到目标下面的地面上，是指先将表面采样点反投影到3D
空间中即相机坐标系下，然后将其3D坐标垂直向下映射到地面上，再将映射的地面点投影到图像平面中；具体过程如下：a1：根据表面点的像素坐标和对应已知的真实深度标签将其反投影到相机坐标系下：
[0013][0014]其中，(u
sur
，v
sur
)表示表面点的像素坐标，(c
u
，c
v
)表示图像中心像素坐标，(f
x
，f
y
)分别表示相机水平焦距和垂直焦距，(x
sur
，y
sur
，z
sur
)表示表面点在3D空间中的坐标；
[0015]a2：步骤a1得到表面点的3D坐标(X
sur
，Y
sur
，Z
sur
)，将Z
sur
替换为目标3D包围框即KITTI数据集中提供的真实目标3D包围框标签的底面中心点的Z
c
坐标，得到表面点在地面上的映射点(X
sur
，Y
sur
，Z
c
)；
[0016]a3：利用相机参数将地面映射点投影到图像平面中：
[0017]Z
sur
[u
grd
，v
grd
，1]T
＝K3×3[X
sur
，Y
c
，Z
sur
]T
ꢀꢀꢀꢀꢀ
(2)
[0018]其中Y
c
是地面的高度；投影后的地面点的像素坐标为(u
grd
，v
grd
)，此地面点的深度为Z
sur
，T为转置运算。
[0019]步骤4所述每个目标表面点的深度从地面深度图中进行查询，具体包括：
[0020][0021]其中，(u
grd
，v
sur
)为表面点的像素坐标，为映射的地面点的像素坐标，h
sur
为网络预测的表面点到地面点在v轴的偏移量；接着从位置在地面深度图中采样，获取对应表面点的深度。
[0022]本专利技术同现有技术相比，其优点在于：本专利技术以CenterNet为基础框架，在训练阶段将目标表面点映射到地面上，构建地面深度的真实标签，供网络学习和训练。在推理阶段，根据目标的地面接触点从网络预测的地面深度图中采样深度。此模型预测的地面深度具有连续性并且更为可靠，同时推理速度能够满足自动驾驶的实时性要求。具体表现为：
[0023]1)图像中的目标相互独立，因此深度是离散的。而地面的深度在本质上是全局的，与场景中的物体无关。通过将目标的深度的估计解耦为地面深度的预测和根据地面接触点进行目标深度的查询和采样实现了更为准确的目标深度估计。
[0024]2)构建目标表面点与地面接触点的映射，网络能够感知目标的三维形状特征，并且地面接触点位置的预测偏差更小，有利于目标深度的查询。
[0025]3)本专利技术在3D目标检测数据集KITTI中与利用地面先验的方法相比，性能提升明显。与其他最新的单目检测方法相比结果更好，证明了本专利技术的可靠性和优越性。
[0026]4)本专利技术在单张Nvidia GPU 3090显卡上单张RGB图片的推理时间是40ms，相较于其他方法推理更快。
附图说明
[0027]图1为本专利技术目标表面点的深度查询和采样示意图；
[0028]图2为本专利技术构建的模型结构图；
[0029]图3为目标表面点到地面接触点的映射和地面点的深度扩充策略示意图；
[0030]图4
‑
5为本专利技术实施例场景图。
具体实施方式
[0031]下面结合附图对本专利技术作进一步说明，本专利技术构建的模型结构和原理对本专业的人来说是非常清楚的。应当理解，此处所描述的具体实施例仅仅用以解释本专利技术，并不用于限定本专利技术。
[0032]本专利技术提出构建一种基于目标表面点与地面映射的单目3D检测模型(MonoSGC)，其构建过程：利用地面先验信息来帮助目标的深度估计，建立在Center本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于目标表面点与地面映射的单目3D检测模型的构建方法，其特征在于，该方法包括如下步骤：步骤1：训练阶段，将道路场景图片中出现的每个目标即车辆、行人和骑行者的2D包围框划分为s*s个网格，每个网格的中心代表一个表面点，利用相机透视几何公式将表面点映射到目标下面的地面上，获取s*s个地面点深度的真实标签；步骤2：对于每一个映射得到的地面点，保持像素坐标的v轴坐标不变，将每一个地面点在u轴上扩充为m个点，扩充之后的地面点与原来的地面点保持相同的深度，对于每一个目标能够产生m*s*s个地面点深度的真实标签；步骤3：根据步骤2生成的真实标签，采用空洞卷积训练一张与道路场景图片尺寸相同的地面深度图；步骤4：推理阶段，每个目标表面点的深度从训练好的地面深度图中查询，然后将每个目标的s*s个表面点的深度组合成最终目标3D中心的深度，与3D基础头预测的其他三维属性组合成为目标的3D包围框。2.如权利要求1所述的基于目标表面点与地面映射的单目3D检测模型的构建方法，其特征在于，步骤1所述将表面点映射到目标下面的地面上，是指先将表面采样点反投影到3D空间中即相机坐标系下，然后将其3D坐标垂直向下映射到地面上，再将映射的地面点投影到图像平面中；具体过程如下：a1：根据表面点的像素坐标和对应已知的真实深度标签将其反投影到相机坐标系下：其中，(u
sur
，v
sur
)表示表面点的像素坐标，(c
u
，c
v
)表示图像中心像素坐标，(f
x
，f
y
)分别表示相机水平焦距和垂直焦距，(x
sur
，y
sur
，z
...

【专利技术属性】
技术研发人员：吉银帅，续晋华，孙仕亮，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人