当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于多模态信息融合的多目标检测方法及装置制造方法及图纸

技术编号:33385677 阅读:14 留言:0更新日期:2022-05-11 23:00
本发明专利技术公开了一种基于多模态信息融合的多目标检测方法及装置,方法包括:将三维与二维的特征图通过共享参数的卷积神经网络进行前向传递,根据交叉熵对卷积神经网络进行训练,实现三维与二维特征融合;将融合后的三维特征图输入到三维区域生成网络中,该网络通过两个分支分别对三维特征图进行映射,分别输出三维目标检测框位置图与概率分数图;将融合后的二维特征图输入到二维区域生成网络中,输出二维目标检测框位置图与概率分数图,此时分别得到点云数据与RGB二维图像中目标的位置及检测的概率分数图;采取后融合的策略,将两种模态下的目标检测框进行融合得到最终的目标检测结果。装置包括:处理器和存储器。克服了传统单模态方法中信息单一、鲁棒性差的局限性。鲁棒性差的局限性。鲁棒性差的局限性。

【技术实现步骤摘要】
一种基于多模态信息融合的多目标检测方法及装置


[0001]本专利技术涉及三维目标检测和二维目标检测等领域,尤其涉及一种基于多模态信息融合的多目标检测方法及装置。

技术介绍

[0002]近年来,随着激光探测与测距(Light Detection and Ranging,LiDAR)技术的发展,点云数据的获取速度与精确度大大提升。如何实现高效准确的点云目标检测,是智能驾驶、遥感、增强现实、虚拟现实等领域的重要问题。与传统的二维目标检测相比,三维目标检测需要更多的输出参数来确定目标的边界框。而由于LiDAR点云的数据特性,在目标检测任务中,常常会面临输入数据分辨率低、纹理和颜色信息缺失、计算开销大等问题,因而更具挑战性。
[0003]面对这些问题,多模态信息融合的方法成为了该领域的研究重点。目前,多模态融合方法主要分为三种:早期融合、后期融合、深度融合。早期融合方法在对原始传感器数据做特征提取之前做特征融合,代表方法为PI

RCNN(点云

图像区域卷积神经网络),该算法直接在三维点云上进行逐点连续卷积,并应用点池化和注意集中操作以获得更好的融合性能。后期融合是最为简便的融合方法,仅在决策层进行融合,避免了不同传感器数据差异带来的问题,降低了算法的复杂性。深度融合方法在特征层面进行交互,对跨模态信息的利用最为充分,代表方法为MV3D(多视图三维目标检测)网络,该网络由两个子网络组成:一个用于生成三维目标候选区域,另一个用于多视图特征融合。
[0004]现行多模态融合目标检测方法面临的主要挑战包括:早期融合和后期融合无法充分利用多模态数据间的关联性。深度融合往往存在对数据对齐敏感、网络结构复杂的缺点。因此,希望有一种技术方案来克服或至少减轻现有技术的至少一个上述缺陷。

技术实现思路

[0005]本专利技术提供了一种基于多模态信息融合的多目标检测方法与装置,本专利技术克服了传统单模态方法中信息单一、鲁棒性差的局限性,可适用于自动驾驶等场景的目标识别任务,详见下文描述:
[0006]一种基于多模态信息融合的多目标检测方法,所述方法包括以下步骤:
[0007]对LiDAR点云数据进行处理,提取LiDAR点云特征,获取三维特征图;
[0008]对RGB图像进行二维图像数据处理,通过特征提取网络输出RGB图像特征,获取二维特征图;
[0009]将三维与二维的特征图通过共享参数的卷积神经网络进行前向传递,根据交叉熵对卷积神经网络进行训练,实现三维与二维特征融合;
[0010]将融合后的三维特征图输入到三维区域生成网络中,该网络通过两个分支分别对三维特征图进行映射,分别输出三维目标检测框位置图与概率分数图;将融合后的二维特征图输入到二维区域生成网络中,输出二维目标检测框位置图与概率分数图,此时分别得
到点云数据与RGB二维图像中目标的位置及检测的概率分数图;采取后融合的策略,将两种模态下的目标检测框进行融合得到最终的目标检测结果。
[0011]其中,所述对LiDAR点云数据进行处理,提取LiDAR点云特征,获取三维特征图为:
[0012]将点云均匀分组为若干体素,将稀疏不均匀的点云转换为密集的张量结构,通过堆叠体素特征编码层得到体素特征的列表,经过卷积中间层,在逐渐扩大的感受野中对体素特征进行聚合,输出LiDAR点云特征,即三维特征图。
[0013]进一步地,所述对RGB图像进行二维图像数据处理,通过特征提取网络输出RGB图像特征,获取二维特征图具体为:
[0014]在二维RGB图像上进行均匀的分组操作,每个组块的宽度和高度与LiDAR点云数据处理中的体素相等;
[0015]通过由卷积层、池化层以及线性整流层组成的特征提取网络,输出RGB图像特征,即二维特征图。
[0016]其中,所述将稀疏不均匀的点云转换为密集的张量结构具体为:
[0017]将体素坐标与体素中点的坐标作为键值对,构建哈希表,实现体素的查找与初始化,体素输入特征和坐标缓冲区通过对点列表的一次遍历来构造。
[0018]进一步地,所述采取后融合的策略,将两种模态的目标检测框融合得到最终的目标检测结果具体为:
[0019]采用混合表示的方式表示两种模态的检测结果:
[0020][0021]其中,IoU
i
为二维与三维边界框的交并比,用于表示在图像中的第i个检测结果和点云中的第j个的几何一致性;为二维检测的第i个检测到的物体置信度分数;为在点云场景下的置信度分数;d
j
表示在点云场景下检测到的第j个物体到地面的归一化距离;
[0022]若二维与三维检测网络均正确地检测出同一目标,则三维检测框在二维图像上的投影应与二维检测框具有较大的交并比;如果二维与三维检测结果不一致,IoU为0,则将IoU
i
,d
j
均置为0;
[0023]将非空的向量输入到卷积神经网络中,通过最大池化映射为目标检测框位置回归图和对应的概率得分图,网络的最终输出为三维目标检测框及其对应的概率得分。
[0024]其中,所述二维目标检测结果表示为:
[0025][0026]其中,P
2D
为二维目标检测结果的集合,k代表当前二维图像中检测出目标的数量,P
i2D
代表检测结果集合中的第i个目标,P
i2D
中的第一项([x
i1
,y
i1
,x
i2
,y
i2
])为二维目标检测边界框,第二项为置信度得分;x
i1
,y
i1
,x
i2
,y
i2
分别为二维目标边界框左上角顶点的横、纵坐标和右下角顶点的横、纵坐标,为二维目标边界框的置信度得分,K是当前检测出目标的数量;
[0027]所述三维目标检测结果表示为:
[0028][0029][0030]其中,P
3D
为三维目标检测结果的集合,n代表当前三维点云中检测出目标的数量,P
i3D
代表检测结果集合中的第i个目标,h
i
,w
i
,l
i
,x
i
,y
i

i
分别为三维目标边界框的高度、宽度、长度、顶点横坐标、顶点纵坐标、相对z轴的旋转角度,为三维目标边界框的置信度得分。
[0031]第二方面,一种基于多模态信息融合的多目标检测装置,所述装置包括:处理器和存储器,所述存储器中存储有程序指令,所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。
[0032]第三方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时使所述处理器执行第一方面中的任一项所述的方法步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息融合的多目标检测方法,其特征在于,所述方法包括以下步骤:对LiDAR点云数据进行处理,提取LiDAR点云特征,获取三维特征图;对RGB图像进行二维图像数据处理,通过特征提取网络输出RGB图像特征,获取二维特征图;将三维与二维的特征图通过共享参数的卷积神经网络进行前向传递,根据交叉熵对卷积神经网络进行训练,实现三维与二维特征融合;将融合后的三维特征图输入到三维区域生成网络中,该网络通过两个分支分别对三维特征图进行映射,分别输出三维目标检测框位置图与概率分数图;将融合后的二维特征图输入到二维区域生成网络中,输出二维目标检测框位置图与概率分数图,此时分别得到点云数据与RGB二维图像中目标的位置及检测的概率分数图;采取后融合的策略,将两种模态下的目标检测框进行融合得到最终的目标检测结果。2.根据权利要求1所述的一种基于多模态信息融合的多目标检测方法,其特征在于,所述对LiDAR点云数据进行处理,提取LiDAR点云特征,获取三维特征图为:将点云均匀分组为若干体素,将稀疏不均匀的点云转换为密集的张量结构,通过堆叠体素特征编码层得到体素特征的列表,经过卷积中间层,在逐渐扩大的感受野中对体素特征进行聚合,输出LiDAR点云特征,即三维特征图。3.根据权利要求1所述的一种基于多模态信息融合的多目标检测方法,其特征在于,所述对RGB图像进行二维图像数据处理,通过特征提取网络输出RGB图像特征,获取二维特征图具体为:在二维RGB图像上进行均匀的分组操作,每个组块的宽度和高度与LiDAR点云数据处理中的体素相等;通过由卷积层、池化层以及线性整流层组成的特征提取网络,输出RGB图像特征,即二维特征图。4.根据权利要求2所述的一种基于多模态信息融合的多目标检测方法,其特征在于,所述将稀疏不均匀的点云转换为密集的张量结构具体为:将体素坐标与体素中点的坐标作为键值对,构建哈希表,实现体素的查找与初始化,体素输入特征和坐标缓冲区通过对点列表的一次遍历来构造。5.根据权利要求2所述的一种基于多模态信息融合的多目标检测方法,其特征在于,所述采取后融合的策略,将两种模态的目标检测框融合得到最终的目标检测结果具体为:采用混合表示的方式表示两种模态的检测结果:其中,IoU
i
为二维与三维边界框的交并比,用于表示在图像中的第i个检测结果和点云中的第j个的几何一致性;为二维检测的第i个检测到的物体置信度分数;为在点云场景下的置信度分数;d
j
表示在点云场景下检测到的第j个物体到地面的归一化距离;若二维与三维检测网络均...

【专利技术属性】
技术研发人员:聂为之高思洁马瑞鑫刘通
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1