一种基于图像和点云融合的目标检测方法和系统技术方案

技术编号:37259924 阅读:16 留言:0更新日期:2023-04-20 23:34
本发明专利技术实施例涉及一种基于图像和点云融合的目标检测方法和系统,所述方法包括:接收第一环视图序列和第一点云;对第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量;对第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量;对第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量;根据第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框。通过本发明专利技术可以提高目标检测精度。精度。精度。

【技术实现步骤摘要】
一种基于图像和点云融合的目标检测方法和系统


[0001]本专利技术涉及数据处理
,特别涉及一种基于图像和点云融合的目标检测方法和系统。

技术介绍

[0002]自动驾驶系统的感知模块会基于感知传感器(摄像头、雷达等)获取的感知数据(图像、点云)对自车行驶环境中的障碍物进行目标检测并输出与各个障碍物相关的目标检测框(bounding box,bbox)。在进行目标检测处理时,感知模块的常规做法要么是基于视觉模型通过分析像素特征来进行目标检测、要么是基于点云模型通过分析点云特征来进行目标检测。这两种处理方式各自的缺点都比较明显,前者因为图像缺乏深度信息所以会导致检测存在较大的距离误差,后者因为点云的稀疏特质容易在检测时产生较大的形状误差。

技术实现思路

[0003]本专利技术的目的,就是针对现有技术的缺陷,提供一种基于图像和点云融合的目标检测方法、系统、电子设备及计算机可读存储介质;本专利技术给出一种对图像和点云进行鸟瞰视角(Bird

s Eye View,BEV)特征融合的前融合处理机制,基于该处理机制将相同时段内得到的由多个图像组成环视图与点云的像素特征和点云特征融合到同一个BEV平面上形成对应的融合BEV特征;并基于该融合BEV特征进行目标检测处理。通过本专利技术,可以在处理目标检测之前通过特征融合得到既包括像素特征又包括点云特征的特征张量,基于该特征张量进行目标检测不但可以降低检测中的距离误差、还可以降低形状误差,达到提高目标检测精度的目的。
[0004]为实现上述目的,本专利技术实施例第一方面提供了一种基于图像和点云融合的目标检测方法,所述方法包括:
[0005]接收第一环视图序列和第一点云;
[0006]对所述第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量;
[0007]对所述第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量;
[0008]对所述第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量;
[0009]根据所述第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框。
[0010]优选的,所述第一环视图序列和所述第一点云均覆盖了自车周围360
°
视角;所述第一环视图序列包括多个第一图像;所述第一环视图序列的各个所述第一图像的拍摄时间一致;所述第一环视图序列的拍摄时间与所述第一点云的点云时间间隔不超过预设的时间间隔阈值;
[0011]所述第一、第二点云BEV特征张量的形状均为H
bev
×
W
bev
×
C
bev
,H
bev
、W
bev
分别为预设
的BEV网格平面的平面深度与平面宽度,H
bev
=512,W
bev
=512,特征维度C
bev
=64。
[0012]优选的,所述对所述第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量,具体包括:
[0013]对所述第一环视图序列的各个所述第一图像进行类点云特征提取处理得到对应的第一点云特征张量;
[0014]对得到的所有所述第一点云特征张量进行特征融合得到对应的第一融合点云特征张量;
[0015]基于预设的点云柱特征提取网络在所述BEV网格平面上对所述第一融合点云特征张量进行BEV特征提取处理得到对应的所述第一点云BEV特征张量;所述点云柱特征提取网络基于PointPillars模型的Pillar Feature Net模块实现。
[0016]进一步的,所述对所述第一环视图序列的各个所述第一图像进行类点云特征提取处理得到对应的第一点云特征张量,具体包括:
[0017]对所述第一图像的各个第一像素点进行深度估计得到对应的第一估计深度,并以米为单位对各个所述第一估计深度进行数值取整得到对应的第一像素深度;所述第一图像包括H0*W0个所述第一像素点,H0、W0分别为所述第一图像的高度和宽度;所述第一估计深度为正实数且单位为米,所述第一像素深度为正整数且单位为米,第一像素深度=int1(第一估计深度),int1()为向下取整函数;
[0018]根据预设的深度范围A、深度步长S、深度数量L和对应的所述第一像素深度,为各个所述第一像素点创建一个长度为所述深度数量L的独热编码向量作为对应的第一深度编码向量;并由得到的H0*W0个所述第一深度编码向量组成对应的第一深度编码张量;所述深度范围A默认为4

60米,所述深度范围A的最小阈值a
min
默认为4米、最大阈值a
max
默认为60米;所述深度步长S默认为1米;所述深度数量L=[(a
max

a
min
)/S]+1,所述深度数量L默认为57;所述第一深度编码向量包括所述深度数量L的第一深度编码;每个所述第一深度编码对应所述深度范围A内的一个第一深度值=(a
min
+(index

1)*S),第一编码索引index≥1,所述第一编码索引index为所述第一深度编码在所述第一深度编码向量中的向量索引;所述第一深度编码向量中,只有对应的所述第一深度值与所述第一像素深度匹配的所述第一深度编码的编码值为1,其余的所有所述第一深度编码的编码值均为0;所述第一深度编码张量的形状为H0×
W0×
L;
[0019]基于预设的三级金字塔特征提取网络对所述第一图像进行三级特征提取处理得到对应的一级、二级和三级特征图,并从中选择所述一级特征图作为对应的第一特征图;所述第一特征图的形状为H1×
W1×
C1,H1、W1、C1分别为所述第一特征图的高度、宽度和特征维度,H1=H0/2、W1=W0/2、C1=64;所述三级金字塔特征提取网络由三级下采样残差网络和三级上采样FPN网络组成,所述三级下采样残差网络默认由ResNet18网络的conv1模块、conv2_x模块和conv3_x模块组成;
[0020]基于预设的第一卷积网络对所述第一特征图进行卷积运算得到对应的第二特征图;所述第二特征图的形状为H1×
W1×
C2,所述第二特征图的高度和宽度与所述第一特征图的高度和宽度保持一致,C2=16;
[0021]按所述第一图像与所述第二特征图的图像比例关系,在保持特征维度不变的前提下对所述第二特征图进行2x上采样得到对应的第三特征图;所述第三特征图的形状为H0×
W0×
C2;所述第三特征图包括H0*W0个长度为C2的第一特征向量;
[0022]将所述第一深度编码张量的各个所述第一深度编码向量记为对应的特征向量a
i,j
,并将所述第三特征图的各个所述第一特征向量记为对应的特征向量b
i,j
,并本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图像和点云融合的目标检测方法,其特征在于,所述方法包括:接收第一环视图序列和第一点云;对所述第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量;对所述第一点云进行点云BEV特征处理提取生成对应的第二点云BEV特征张量;对所述第一、第二点云BEV特征张量进行特征融合处理生成对应的第三点云BEV特征张量;根据所述第三点云BEV特征张量进行目标检测处理生成对应的多个第一目标检测框。2.根据权利要求1所述的基于图像和点云融合的目标检测方法,其特征在于,所述第一环视图序列和所述第一点云均覆盖了自车周围360
°
视角;所述第一环视图序列包括多个第一图像;所述第一环视图序列的各个所述第一图像的拍摄时间一致;所述第一环视图序列的拍摄时间与所述第一点云的点云时间间隔不超过预设的时间间隔阈值;所述第一、第二点云BEV特征张量的形状均为H
bev
×
W
bev
×
C
bev
,H
bev
、W
bev
分别为预设的BEV网格平面的平面深度与平面宽度,H
bev
=512,W
bev
=512,特征维度C
bev
=64。3.根据权利要求2所述的基于图像和点云融合的目标检测方法,其特征在于,所述对所述第一环视图序列进行类点云BEV特征提取处理生成对应的第一点云BEV特征张量,具体包括:对所述第一环视图序列的各个所述第一图像进行类点云特征提取处理得到对应的第一点云特征张量;对得到的所有所述第一点云特征张量进行特征融合得到对应的第一融合点云特征张量;基于预设的点云柱特征提取网络在所述BEV网格平面上对所述第一融合点云特征张量进行BEV特征提取处理得到对应的所述第一点云BEV特征张量;所述点云柱特征提取网络基于PointPillars模型的Pillar Feature Net模块实现。4.根据权利要求3所述的基于图像和点云融合的目标检测方法,其特征在于,所述对所述第一环视图序列的各个所述第一图像进行类点云特征提取处理得到对应的第一点云特征张量,具体包括:对所述第一图像的各个第一像素点进行深度估计得到对应的第一估计深度,并以米为单位对各个所述第一估计深度进行数值取整得到对应的第一像素深度;所述第一图像包括H0*W0个所述第一像素点,H0、W0分别为所述第一图像的高度和宽度;所述第一估计深度为正实数且单位为米,所述第一像素深度为正整数且单位为米,第一像素深度=int1(第一估计深度),int1()为向下取整函数;根据预设的深度范围A、深度步长S、深度数量L和对应的所述第一像素深度,为各个所述第一像素点创建一个长度为所述深度数量L的独热编码向量作为对应的第一深度编码向量;并由得到的H0*W0个所述第一深度编码向量组成对应的第一深度编码张量;所述深度范围A默认为4

60米,所述深度范围A的最小阈值a
min
默认为4米、最大阈值a
max
默认为60米;所述深度步长S默认为1米;所述深度数量L=[(a
max

a
min
)/S]+1,所述深度数量L默认为57;所述第一深度编码向量包括所述深度数量L的第一深度编码;每个所述第一深度编码对应所述深度范围A内的一个第一深度值=(a
min
+(index

1)*S),第一编码索引index≥1,所述第
一编码索引index为所述第一深度编码在所述第一深度编码向量中的向量索引;所述第一深度编码向量中,只有对应的所述第一深度值与所述第一像素深度匹配的所述第一深度编码的编码值为1,其余的所有所述第一深度编码的编码值均为0;所述第一深度编码张量的形状为H0×
W0×
L;基于预设的三级金字塔特征提取网络对所述第一图像进行三级特征提取处理得到对应的一级、二级和三级特征图,并从中选择所述一级特征图作为对应的第一特征图;所述第一特征图的形状为H1×
W1×
C1,H1、W1、C1分别为所述第一特征图的高度、宽度和特征维度,H1=H0/2、W1=W0/2、C1=64;所述三级金字塔特征提取网络由三级下采样残差网络和三级上采样FPN网络组成,所述三级下采样残差网络默认由ResNet18网络的conv1模块、conv2_x模块和conv3_x模块组成;基于预设的第一卷积网络对所述第一特征图进行卷积运算得到对应的第二特征图;所述第二特征图的形状为H1×
W1×
C2,所述第二特征图的高度和宽度与所述第一特征图的高度和宽度保持一致,C2=16;按所述第一图像与所述第二特征图的图像比例关系,在保持特征维度不变的前提下对所述第二特征图进行2x上采样得到对应的第三特征图;所述第三特征图的形状为H0×
W0×
C2;所述第三特征图包括H0*W0个长度为C2的第一特征向量;将所述第一深度编码张量的各个所述第一深度编码向量记为对应的特征向量a
i,j
,并将所述第三特征图的各个所述第一特征向量记为对应的特征向量b
i,j
,并根据所述特征向量a
i,j
和所述特征向量b
i,j
计算得到对应的特征矩阵m
i,j
,并由得到的H0*W0个所述特征矩阵m
i,j
组成对应的第一深度特征张量;1≤i≤H0、1≤j≤W0;所述特征矩阵m
i,j
的形状为L
×
C2;所述第一深度特征张量的形状为H0×
W0×
L
×
C2,所述第一深度特征张量的高度为H0、宽度为W0、深度为L、特征维度为C2;所述第一深度特征张量包括H0*W0*L个长度为C2的第二特征向量p
i,j,k
,1≤k≤L;根据各个所述第二特征向量p
i,j,k
的下标参数(i,j)对应的所述第一图像的像素坐标和下标参数k对应的所述第一深度值,按二维像素坐标到三维世界坐标的坐标系转换关系计算出对应的第一三维世界坐标(x,y,z);并由各个所述第二特征向量p
i,j,k
和对应的所述第一三维世界坐标(x,y,z)组成一个对应的长度为C2+3的第一点特征向量;并由得到H0*W0*L个所述第一点特征向量组成对应的所述第一点云特征张量。5.根据权利要求4所述的基于图像和点云融合的目标检测方法,其特征在于,所述对得到的所有所述第一点云特征张量进行特征融合得到对应的第一融合点云特征张量,具体包括:由得到的所有所述第一点云特征张量组成第一张量集合;按预设的最小距离阈值,对所述第一张量集合中的所有所述第一点特征向量进行聚类得到多个第一聚类向量集合;所述第一聚类向量集合包括一个或多个所述第一点特征向量;所述第一聚类向量集合中所述第一点特征向量的数量大于或等于2时,每两个所述第一点特征向量的所述第一三维世界坐标之间的直线距离不超过所述最小距离阈值;在各个所述第一聚类向量集合中,对所有所述第一点特征向量的所述第一三维世界坐标进行三维坐标均值计算得到对应的第二三维世...

【专利技术属性】
技术研发人员:张永昌
申请(专利权)人:苏州轻棹科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1