基于跨视图特征融合的3D动态多目标检测方法、系统及存储介质技术方案

技术编号:37678887 阅读:17 留言:0更新日期:2023-05-26 04:45
本发明专利技术提供了一种基于跨视图特征融合的3D动态多目标检测方法、系统及存储介质,该3D动态多目标检测方法包括特征提取步骤、特征映射与融合步骤、预选框生成与检测框优化步骤。本发明专利技术的有益效果是:本发明专利技术融合了激光雷达和摄像头两种传感器的优势,实现自动驾驶领域中的动态多目标检测技术,能够对车辆、行人、骑行的人等多类目标进行准确的识别和定位,该技术兼顾了实时性,能够应用在实际的场景中。能够应用在实际的场景中。能够应用在实际的场景中。

【技术实现步骤摘要】
基于跨视图特征融合的3D动态多目标检测方法、系统及存储介质


[0001]本专利技术涉及图像处理及自动驾驶
,尤其涉及一种基于跨视图特征融合的3D动态多目标检测方法、系统及存储介质。

技术介绍

[0002]自动驾驶技术已被广泛应用于道路自动避障、SLAM导航、自动泊车等各种日常生活场景中。其中,目标检测技术,是应用自动驾驶技术的车辆感知周围环境信息的重要环节,由于当前3D目标检测技术存在数据退化与特征丰富度不足的问题,如何提升检测效果,成为重要的研究方向。采用多模态特征融合技术,可以将不同传感器信息的优缺点相结合,提升特征丰富度,弥补卷积过程中带来的数据退化问题。其中以点云和图像相结合的跨视图特征融合的目标检测算法更具优势,逐渐成为研究热点。
[0003]虽然针对点云与图像相结合的多模态目标检测的研究已有很多,但大多采用伪激光雷达映射的方式,直接对点云和图像进行特征提取的研究还很少。对于跨视图实现多模态目标检测的解决方案可以分为两类。一类是采取序列融合的处理方法,即前一阶段得到的特征信息与后一阶段得到的特征相互连接,例如F

PointNets,采用视锥法,将图像生成的预选框投影到点云中,通过生成的视锥区域得到最终的3D检测框。但是,每个视锥区域中只包括了一个预选目标,在目标拥挤且较多的场景中效果欠佳。另一类是采取并行融合的处理方法,即直接融合多模态特征,将统一表示的特征形式信息输入检测模块生成预选框,例如ContFuse算法,通过逐点的特征融合方式,解决目标结构特征存在丢失的问题,但是由于点云具有稀疏性,因此在稀疏的区域,逐点融合的方式计算成本较高。无法满足自动驾驶的实时性要求。

技术实现思路

[0004]本专利技术提供了一种基于跨视图特征融合的3D动态多目标检测方法,包括如下步骤:
[0005]步骤一,特征提取步骤:包括点云特征提取网络和图像特征提取网络,通过并行的云特征提取网络和图像特征提取网络得到完整的多模态特征;
[0006]步骤二,特征映射与融合步骤:特征映射采用逐点对应的方式,得到点云特征与逐点对应的图像特征;特征融合过程首先计算每个点在点云特征和图像特征图中的权重,设点云加权特征为其中LiDAR weight map为点云加权值,F
L
代表点云特征图,图像特征图为F
C
,代表逐通道级联,
×
代表逐点乘积运算,图像加权特征为Camera weight map为图像加权值,接着将加权点云特征和加权图像特征进行级联,得到融合特征F
Ripe

[0007]步骤三,预选框生成与检测框优化步骤包括如下步骤:
[0008]步骤1:将融合特征F
Ripe
进行置信度检测,得到定位置信度与分类置信度图;
[0009]步骤2:对于特征图中的每一个点,生成两个角度的预选框,包含7个参数(x,y,z,h,w,l,r),分别代表坐标轴坐标和预选框的长宽高及偏向角信息;
[0010]步骤3:检测框优化,对特征的丰富度进行提升,增强对点云和图像空间的上下文结构信息的感知能力。
[0011]作为本专利技术的进一步改进,点云特征提取网络由划分体素空间、体素特征编码模块和子流型稀疏卷积模块构成,设点云空间沿Z,X,Y坐标轴的范围为H,D,W,采样步长为v
H
,v
D
,v
W
,可得体素集合为划分的体素数量分别用h、d、w表示;设集合C=(C
x
,C
y
,C
z
)为每个体素的局部质心,即每个体素采样点的坐标均值,则经过编码的体素特征集合V
in
可以表示为T表示矩阵转置,为实数集合,C
x
、C
y
、C
z
为体素的质心坐标,c
i
为体素中第i个点的空间坐标(x
i
,y
i
,z
i
)和该点的激光雷达的反射率,t∈(0,T],代表该体素中采样点的数量,V
off
表示每个点相对于局部质心C的偏移量;子流型稀疏卷积算法采用空值补零和失真区域清零的方式,保障卷积的实时性和避免卷积过程中出现失真,根据卷积尺度计算公式E
i
指输入特征图中的点,F
i
指输出特征图与输入特征图对应的点,推导出八倍下采样稀疏卷积后的尺度信息,其中f代表卷积核大小,s代表卷积步长,p为零值填充。
[0012]作为本专利技术的进一步改进,图像特征提取网络由ResNet18与特征金字塔组成,其中ResNet18由输入模块和四个卷积模块组成,输入模块对图像进行预处理操作,采用普通卷积核最大池化相结合的方式,卷积模块加入残差网络,解决神经网络中的特征退化问题;特征金字塔使用自下而上的上采样方式,将ResNet18得到的最下层特征图放大到最上层的特征图,通过叠加保留各层的图像特征。
[0013]作为本专利技术的进一步改进,在所述步骤二中,在进行特征映射时,为了准确找到点云与图像之间的对应关系,遍历原始大小的体素,以体素中心点为参考坐标,通过实际情况的相机内外参数与激光雷达的对应关系,找到点云中的点在图像中的对应像素点,若找不到对应像素,则跳过该点;考虑到原始大小的信息和卷积得到的特征图存在八倍的尺度差距,为了防止原始图像中的像素坐标缩小八倍后不是整数,本专利技术采用双线性插值的方式解决;设I(m
k*
,n
k*
)为原始图像中坐标,F(m
k*
,n
k*
)为特征图中的坐标,则通过公式可得其中意为向下取整,i和j为索引范围,m
k*
和n
k*
为图像坐标系中第k个点所对应的横纵坐标,b(i,j,n,n)=max(1

|i

m|,0)
×
max(1

|j

n|,0),m代表横坐标,代表经过归一化处理后,四个坐标点到目标点(m
k*
,n
k*
)的权值,代表四个坐标点在图像特征图中的特征向量。
[0014]作为本专利技术的进一步改进,在所述步骤1中,将融合特征F
Ripe
通过2D卷积网络,生
成定位置信度与分类置信度图。
[0015]作为本专利技术的进一步改进,所述步骤3包括:
[0016]步骤A:对预选框沿坐标轴均匀采样6
×6×
6个关键点,并在图像特征图中找到对应的像素点,使用PointNet进行编码,得到预选框相对应的图像特征F
Camera

[0017]步骤B:然后对各阶段的稀疏卷积特征进行提取,包含一倍、两倍、四倍、八倍下采样的特征,则各阶段稀疏卷积融合的特征表示为F
Raw
=∑
m∈M
...

【技术保护点】

【技术特征摘要】
1.一种基于跨视图特征融合的3D动态多目标检测方法,其特征在于,包括如下步骤:步骤一,特征提取步骤:包括点云特征提取网络和图像特征提取网络,通过并行的云特征提取网络和图像特征提取网络得到完整的多模态特征;步骤二,特征映射与融合步骤:特征映射采用逐点对应的方式,得到点云特征与逐点对应的图像特征;特征融合过程首先计算每个点在点云特征和图像特征图中的权重,设点云加权特征为其中LiDAR weight map为点云加权值,F
L
代表点云特征图,图像特征图为F
C
,代表逐通道级联,
×
代表逐点乘积运算,图像加权特征为Camera weight map为图像加权值,接着将加权点云特征和加权图像特征进行级联,得到融合特征F
Ripe
;步骤三,预选框生成与检测框优化步骤包括如下步骤:步骤1:将融合特征F
Ripe
进行置信度检测,得到定位置信度与分类置信度图;步骤2:对于特征图中的每一个点,生成两个角度的预选框,包含7个参数(x,y,z,h,w,l,r),分别代表坐标轴坐标和预选框的长宽高及偏向角信息;步骤3:检测框优化,对特征的丰富度进行提升,增强对点云和图像空间的上下文结构信息的感知能力。2.根据权利要求1所述的3D动态多目标检测方法,其特征在于,点云特征提取网络由划分体素空间、体素特征编码模块和子流型稀疏卷积模块构成,设点云空间沿Z,X,Y坐标轴的范围为H,D,W,采样步长为v
H
,v
D
,v
W
,可得体素集合为划分的体素数量分别用h、d、w表示;设集合c=(c
x
,c
y
,c
z
)为每个体素的局部质心,即每个体素采样点的坐标均值,则经过编码的体素特征集合V
in
可以表示为T表示矩阵转置,为实数集合,c
x
、c
y
、c
z
为体素的质心坐标,c
i
为体素中第i个点的空间坐标(x
i
,y
i
,z
i
)和该点的激光雷达的反射率,t∈(0,T],代表该体素中采样点的数量,V
off
表示每个点相对于局部质心C的偏移量;子流型稀疏卷积算法采用空值补零和失真区域清零的方式,保障卷积的实时性和避免卷积过程中出现失真,根据卷积尺度计算公式E
i
指输入特征图中的点,F
i
指输出特征图与输入特征图对应的点,推导出八倍下采样稀疏卷积后的尺度信息,其中f代表卷积核大小,s代表卷积步长,p为零值填充。3.根据权利要求1所述的3D动态多目标检测方法,其特征在于,图像特征提取网络由ResNet18与特征金字塔组成,其中ResNet18由输入模块和四个卷积模块组成,输入模块对图像进行预处理操作,采用普通卷积核最大池化相结合的方式,卷积模块加入残差网络,解决神经网络中的特征退化问题;特征金字塔使用自下而上的上采样方式,将ResNet18得到的最下层特征图放大到最上层的特征图,通过叠加保留各层的图像特征。4.根据权利要求1所述的3D动态多目标检测方法,其特征在于,在所述步骤二中,在进行特征映射时,为了准确找到点云与图像之间的对应关系,遍历原始大小的体素,以体素中
心点为参考坐标,通过实际情况的相机内外参数与激光雷达的对应关系,找到点云中的点在图像中的对应像素点,若找不到对应像素,则跳过该点;考虑到原始大小的信息和卷积得到的特征图存在八倍的尺度差距,为了防止原始图像中的像素坐标缩小八倍后不是整数,本发明采用双线性插值的方式解决;设I(m
k*
,n<...

【专利技术属性】
技术研发人员:钱佳俊刘仪婷周锋李兴通肖昊陶重犇
申请(专利权)人:苏州科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1