一种图像升维方法及三维目标检测方法技术

技术编号:34963215 阅读:58 留言:0更新日期:2022-09-17 12:43
本发明专利技术公开一种三维目标检测方法,首先从点云中提取点云提取点云体素特征,然后将二维图像特征升维投影至三维的同质图像体素空间,得到图像体素特征,并将点云体素特征与图像体素特征进行融合,得到融合特征,最后基于融合特征对目标进行识别及分类,有效减少了特征级融合过程中的信息损失。融合过程中的信息损失。融合过程中的信息损失。

【技术实现步骤摘要】
一种图像升维方法及三维目标检测方法


[0001]本专利技术涉及自动驾驶
,特别涉及一种图像升维方法及三维目标检测方法。

技术介绍

[0002]三维目标检测是自动驾驶领域的一个重要方向,其目的在于对三维空间中的每一个对象进行精确地定位和分类,从而使车辆能够全面感知和了解周围环境。
[0003]现有的三维目标检测多基于激光雷达和/或图像实现。其中,基于激光雷达获取的点云中包含有精确的空间信息,而图像中则包含有更多的语义信息,因此,基于多模态的三维目标检测作为一种可以利用图像和点云互补信息的方法,已成为三维目标检测方法的发展方向。
[0004]基于多模态的三维目标检测包括决策级融合及特征级融合两大类。其中,决策级融合是指将不同模态检测模块检测到的对象通过策略合并到一起,这类方法的性能会受限于每个模态检测模块的性能。而特征级融合是指首先融合不同模态的特征,然后再基于融合特征进行对象检测。目前常用的特征级融合方法有两种。一种是生成感兴趣区域,然后分别从各自模态的特征中截取对应区域的子特征进行融合。这种方法在进行特征融合前需要将三维点投影到二维平面,因此,会造成严重的三维信息损失。另一种则是将点云中的点转化为体素后与图像融合,其虽然能实现更细粒度的融合,但是由于图像和点云的特征空间有较大的差距,因此其可能存在较大的不匹配和信息损失。

技术实现思路

[0005]针对现有技术中的部分或全部问题,本专利技术提供一种图像升维方法,以将二维图像特征升维至三维空间中,所述方法包括:
[0006]提取图像的二维图像特征;
[0007]基于所述二维图像特征生成视椎体特征;以及
[0008]将所述视椎体特征映射到三维空间。
[0009]进一步地,所述视椎体特征的生成包括:
[0010]将每个像素对应的特征向量与深度区间进行外积操作,其中所述深度区间沿图像视椎体透视投影的射线方向。
[0011]进一步地,通过三线性插值将所述视椎体特征映射到三维空间,包括:
[0012]遍历三维空间,基于标定矩阵对三维空间的每个点进行投影。
[0013]本专利技术另一方面提供一种三维目标检测方法,其基于同质多模态特征融合实现,包括:
[0014]从点云中提取点云提取点云体素特征,并在图像中提取二维图像特征;
[0015]采用如前所述的图像升维方法,将所述二维图像特征升维投影至三维的同质图像体素空间,得到图像体素特征;
[0016]将所述点云体素特征与所述图像体素特征进行融合,得到融合特征;以及
[0017]基于所述融合特征对目标进行识别及分类。
[0018]进一步地,采用点云编码网络从点云中提取所述点云体素特征。
[0019]进一步地,采用查询融合机制融合所述点云体素特征与所述图像体素特征。
[0020]进一步地,采用自注意力层作为查询融合机制,包括:
[0021]采用点云体素特征作为查询,图像体素特征作为键和值;
[0022]对每一个注意力头利用三个可学习的线性变换施加至所述查询、键和值中;
[0023]将多个注意力头映射至同质三维空间,得到多头注意力;
[0024]将所述多头注意力与点云体素特征拼接,得到融合特征。
[0025]进一步地,所述查询的构造包括:
[0026]提取所述点云体素特征中的指定个非空体素,构造形成查询。
[0027]进一步地,所述键和值的构造包括:
[0028]使用三维最大值池化,从所述图像体素特征中提取信息量高于预设值的部分,构造形成键和值。
[0029]进一步地,所述方法还包括:
[0030]将所述融合特征散布至所述点云体素空间中,以作为目标识别及分类的依据。
[0031]进一步地,所述方法还包括:对所述点云体素特征及图像体素特征施加目标级相似性约束,包括:
[0032]利用体素级的兴趣区域池化在所述点云体素特征及图像体素特征上截取N组兴趣区域特征;
[0033]将所述N组兴趣区域特征转换至度量空间中,得到N对度量特征;以及
[0034]最小化每对度量特征的余弦相似度距离。
[0035]进一步地,通过编码器及预测器将所述N组兴趣区域特征转换至度量空间中,并对所述编码器及预测器采用了梯度截止策略。
[0036]进一步地,所述预测器包括多层感知机。
[0037]本专利技术提供的一种三维目标检测方法,其将二维图像投影到三维空间,再和同在三维空间中的点云进行融合,相较于将三维点云投影到二维图像等方法,其能够最大程度地防止图像和点云在特征变换过程中的压缩和损失,并保留最多的原始信息。所述方法还引入了查询融合机制(Query Fusion Mechanism,QFM),其原理是,基于自注意力自适应地融合点云和图像特征,使得每个点云体素都能自适应地从全局三维图像特征中感知有用信息,并且能够有效地融合这两种同质化的表示。此外,为了提高点云和图像的一致性,所述方法还提出了对象级别的体素特征交互方法,有效提升了两种同质化特征的语义一致性,同时增强了模型进行跨模态特征融合的能力。
附图说明
[0038]为进一步阐明本专利技术的各实施例的以上和其它优点和特征,将参考附图来呈现本专利技术的各实施例的更具体的描述。可以理解,这些附图只描绘本专利技术的典型实施例,因此将不被认为是对其范围的限制。在附图中,为了清楚明了,相同或相应的部件将用相同或类似的标记表示。
[0039]图1示出本专利技术一个实施例的一种图像升维方法的过程示意图;
[0040]图2示出本专利技术一个实施例的一种三维目标检测方法的流程示意图;以及
[0041]图3示出本专利技术一个实施例的施加目标级相似性约束的过程示意图。
具体实施方式
[0042]以下的描述中,参考各实施例对本专利技术进行描述。然而,本领域的技术人员将认识到可在没有一个或多个特定细节的情况下或者与其它替换和/或附加方法一起实施各实施例。在其它情形中,未示出或未详细描述公知的操作以免模糊本专利技术的专利技术点。类似地,为了解释的目的,阐述了特定配置,以便提供对本专利技术的实施例的全面理解。然而,本专利技术并不限于这些特定细节。
[0043]在本说明书中,对“一个实施例”或“该实施例”的引用意味着结合该实施例描述的特定特征、结构或特性被包括在本专利技术的至少一个实施例中。在本说明书各处中出现的短语“在一个实施例中”并不一定全部指代同一实施例。
[0044]在三维目标检测算法的特征级融合方法中,若在感兴趣区域(Region of Interest,RoI)融合多模态特征,通常需要将Rol投影到二维的鸟瞰图或前视图上才能进行对齐和特征提取,这会产生严重的信息损失,且损失的三维信息在进行三维空间中的对象定位起到了关键作用。若将点云中的点转化为体素后和图像进行融合,则由于二维密集图像像素和三维稀疏激光雷达点之间存在投影视差,同样会造成较大的不匹配和信息损失。基于以上问题,本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像升维方法,其特征在于,包括步骤:提取图像的二维图像特征;基于所述二维图像特征生成视椎体特征;以及将所述视椎体特征映射到三维空间。2.如权利要求1所述的图像升维方法,其特征在于,通过将每个像素(m,n)对应的二维图像特征与深度区间进行外积操作,得到每个像素对应的视椎体特征椎体特征其中所述深度区间沿图像视椎体透视投影的射线方向,由W
F
×
H
F
个维度为R的独热离散化的深度区间组成,其中,W
F
,H
F
,C
F
分别表示所述二维图像特征的宽、高和通道数。3.如权利要求1所述的图像升维方法,其特征在于,将所述视椎体特征G映射到三维空间I包括:遍历三维空间的每个位置i,进行如下操作:基于标定矩阵CM对所述视椎体特征的质心进行采样:其中,表示在G,I中第i个体素的三维坐标值;以及围绕的邻域进行三线性插值,形成4.一种三维目标检测方法,其特征在于,包括步骤:从点云中提取点云体素特征并在图像中提取二维图像特征其中C
F
为点云体素特征的通道数,(X
P
,Y
P
,Z
P
)为点云体素切分网格的尺寸,W
F
,H
F
,C
F
分别表示所述二维图像特征的宽、高和通道数;采用如权利要求1至3任一所述的图像升维方法,将所述二维图像特征升维投影至三维的同质图像体素空间,得到图像体素特征的同质图像体素空间,得到图像体素特征其中C
F
为图像体素特征的通道数,(X
I
,Y
I
,Z
I
)为图像体素切分网格的尺寸;将所述点云体素特征与所述图像体素特征进行融合,得到融合特征;以及基于所述融合特征对目标进行识别及分类。5.如权利要求4所述的三维目标检测方法,其特征在于,采用查询融合机制融合所述点云体素特征与所述图像体素特征。6.如权利要求5所述的三维目标检测方法,其特征在于,采用自注意力层作为查询融合机制,包括步骤:采用点云体素特征F
P
作...

【专利技术属性】
技术研发人员:李怡康石博天李鑫
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1