一种多视角制造技术

技术编号:39749768 阅读:5 留言:0更新日期:2023-12-17 23:47
本发明专利技术公开了一种多视角

【技术实现步骤摘要】
一种多视角3D目标检测方法、系统和设备


[0001]本专利技术涉及计算机视觉领域,具体涉及一种多视角
3D
目标检测方法

系统和设备


技术介绍

[0002]目前的基于多视角相机的
3D
目标检测方法可以被分为两类

基于鸟瞰图的方法估计了一个显式的深度分布,以提升每个图像以生成一个截锥体形状的点云,然后将截锥体在高度上池化到一个共享的鸟瞰图平面上

然而,由于图像到鸟瞰图的转换,基于鸟瞰图的方法复杂且耗时

另一个类方法称为基于稀疏表示的方法,旨在检测没有密集鸟瞰图表示的
3D
物体

这些方法首先为每个点生成具有预定义深度间隔的均匀深度向量,图像平面上的二维坐标和深度向量共同形成
3D
网格

将网格转换为
3D
世界空间,并进一步编码为
3D
位置嵌入,作为对象查询的几何先验,以预测
3D
边界框

这些方法比基于鸟瞰的方法简单,但由于没有明确考虑深度估计,其性能明显降低

上述方法虽然取得了显著的进步,但都忽略了二维图像到
3D
空间投影的不确定性

因此,本专利设计了一个不确定性投影网络来处理这个问题


技术实现思路

[0003]针对现有技术的不足,本专利技术提出了一种多视角
3D
目标检测方法

系统和设备,通过两个模块分别考虑深度不确定性和相机参数不确定性

本申请考虑了基于多视图相机的
3D
物体检测中的不确定性的工作,不确定性感知投影网络能够提升
3D
物体检测的性能

[0004]本专利技术的目的可以通过以下技术方案实现:
[0005]第一方面,本申请提出一种多视角
3D
目标检测方法,包括:
[0006]提取输入图像的特征;基于提取的特征将图像
3D
网格处理,得到图像的
2D
像素坐标和图像的网格点的
3D
坐标;
[0007]基于
3D
坐标和提取的特征获取
3D
位置编码,采用第一损失函数对
3D
位置编码进行约束;对提取的特征预测得到深度图和方差图,通过第二损失函数对预测结果进行约束:
[0008]将
2D
像素坐标和预测深度的均值组成
3D
点并投影到
3D
空间,得到
3D
点集一;将
2D
像素坐标和随机抽取的深度值构成
3D
点并投影到
3D
空间,得到
3D
点集二;将
3D
点集一和
3D
点集二输入位置编码器,获取
3D
位置嵌入一;
[0009]基于图像的相机参数对
3D
位置嵌入一进行滤波得到
3D
位置嵌入二;
[0010]对
3D
位置嵌入一和
3D
位置嵌入二加权求和,得到最终的
3D
位置嵌入;对第一损失函数和第二损失函数加权求和,得到最终的
3D
位置嵌入的损失函数;
[0011]基于最终的
3D
位置嵌入计算
3D
位置感知特征,并根据最终的
3D
位置嵌入的损失函数进行优化训练,得到目标的查询;基于目标的查询预测对象类别和边界框位置

[0012]在一些实施例中,图像的
2D
像素坐标和图像的网格点的
3D
坐标的获取,包括以下步骤:
[0013]通过图像编码器对输入的图像进行特征提取;
[0014]通过
3D
位置编码器将摄像机视台空间离散成
3D
网格,网格中的每个点表示为:
p
j

(u
×
d
j
,v
×
d
j
,d
j
),j

1,..D
,其中
(u,v)
代表图像平面的像素坐标,是一系列预定义的深度值;
[0015]每个网格点对应的
3D
坐标可以根据每个相机的投影矩阵计算:
[0016]d
j
·
[u,v,1]T

K
i
·
[x
i,j
,y
i,j
,z
i,j
,1]T
[0017]其中
K
i
∈R3×4是第
i
个相机的投影矩阵

[0018]在一些实施例中,
3D
位置编码满足:
[0019][0020]其中代表
3D
网格在第
i
个相机下投影到真实世界下点的坐标的集合,为
3D
位置编码器;
[0021]第一损失函数为:
L
det

λ
cls
L
cls
+
λ
reg
L
reg
[0022]其中,
λ
cls

λ
reg
为预先定义的常数,
L
cls
为分类损失,
L
reg
为回归损失

[0023]在一些实施例中,所述深度图和方差图通过两个卷积块连续处理后并进行卷积得到;其中卷积块对于提取的特征依次进行卷积

正则化和
ReLU
激活处理;
[0024]第二损失函数为:
L
depth

|D
μ

D
p
|

[0025]其中
D
p
为稀疏点云
P
cloud
投影到图像平面上获得稀疏的深度标签;
D
μ
为深度图中对应的深度值

[0026]在一些实施例中,所述
3D
位置嵌入一的获取,包括以下步骤:
[0027]正则化预测的深度图,将
L
depth
改写成:
[0028][0029]用方差
D
σ
来衡量每个像素的两个位置嵌入的重要性,并将
D
σ
归本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多视角
3D
目标检测方法,其特征在于,包括:提取输入图像的特征;基于提取的特征将图像
3D
网格处理,得到图像的
2D
像素坐标和图像的网格点的
3D
坐标;基于
3D
坐标和提取的特征获取
3D
位置编码,采用第一损失函数对
3D
位置编码进行约束;对提取的特征预测得到深度图和方差图,通过第二损失函数对预测结果进行约束:将
2D
像素坐标和预测深度的均值组成
3D
点并投影到
3D
空间,得到
3D
点集一;将
2D
像素坐标和随机抽取的深度值构成
3D
点并投影到
3D
空间,得到
3D
点集二;将
3D
点集一和
3D
点集二输入位置编码器,获取
3D
位置嵌入一;基于图像的相机参数对
3D
位置嵌入一进行滤波得到
3D
位置嵌入二;对
3D
位置嵌入一和
3D
位置嵌入二加权求和,得到最终的
3D
位置嵌入;对第一损失函数和第二损失函数加权求和,得到最终的
3D
位置嵌入的损失函数;基于最终的
3D
位置嵌入计算
3D
位置感知特征,并根据最终的
3D
位置嵌入的损失函数进行优化训练,得到目标的查询;基于目标的查询预测对象类别和边界框位置
。2.
根据权利要求1所述的多视角
3D
目标检测方法,其特征在于,图像的
2D
像素坐标和图像的网格点的
3D
坐标的获取,包括以下步骤:通过图像编码器对输入的图像进行特征提取;通过
3D
位置编码器将摄像机视台空间离散成
3D
网格,网格中的每个点表示为:
p
j

(u
×
d
j
,v
×
d
j
,d
j
),j

1,..D
,其中
(u,v)
代表图像平面的像素坐标,是一系列预定义的深度值;每个网格点对应的
3D
坐标可以根据每个相机的投影矩阵计算:
d
j
·
[u,v,1]
T

K
i
·
[x
i,j
,y
i,j
,z
i,j
,1]
T
其中
K
i
∈R3×4是第
i
个相机的投影矩阵
。3.
根据权利要求2所述的多视角
3D
目标检测方法,其特征在于,
3D
位置编码满足:其中代表
3D
网格在第
i
个相机下投影到真实世界下点的坐标的集合,为
3D
位置编码器;第一损失函数为:
L
det

λ
cls
L
cls
+
λ
reg
L
reg
其中,
λ
cls

λ
reg
为预先定义的常数,
L
cls
为分类损失,
L
reg
为回归损失
。4.
根据权利要求1所述的多视角
3D
目标检测方法,其特征在于,所述深度图和方差图通过两个卷积块连续处理后并进行卷积得到;其中卷积块对于提取的特征依次进行卷积

正则化和
ReLU
激活处理;第二损失函数为:
L
depth

|D
μ

D
p
|
;其中
D
p
为稀疏点云
P
cloud
投影到图像平面上获得稀疏的深度标签;
D
μ
为深度图中对应的深度值
。5.
根据权利要求4所述的多视角
3D
目标检测方法,其特征在于,所述
3D
位置嵌入一的获取,包括以下步骤:正则化预测的深度图,将
L
depth

【专利技术属性】
技术研发人员:张天柱杨文飞张哲吴枫
申请(专利权)人:深空探测实验室天都实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1