一种基于多模态信息融合的多目标检测方法及装置制造方法及图纸

技术编号：33385677 阅读：14 留言：0更新日期：2022-05-11 23:00

本发明专利技术公开了一种基于多模态信息融合的多目标检测方法及装置，方法包括：将三维与二维的特征图通过共享参数的卷积神经网络进行前向传递，根据交叉熵对卷积神经网络进行训练，实现三维与二维特征融合；将融合后的三维特征图输入到三维区域生成网络中，该网络通过两个分支分别对三维特征图进行映射，分别输出三维目标检测框位置图与概率分数图；将融合后的二维特征图输入到二维区域生成网络中，输出二维目标检测框位置图与概率分数图，此时分别得到点云数据与RGB二维图像中目标的位置及检测的概率分数图；采取后融合的策略，将两种模态下的目标检测框进行融合得到最终的目标检测结果。装置包括：处理器和存储器。克服了传统单模态方法中信息单一、鲁棒性差的局限性。鲁棒性差的局限性。鲁棒性差的局限性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态信息融合的多目标检测方法及装置

[0001]本专利技术涉及三维目标检测和二维目标检测等领域，尤其涉及一种基于多模态信息融合的多目标检测方法及装置。

技术介绍

[0002]近年来，随着激光探测与测距(Light Detection and Ranging，LiDAR)技术的发展，点云数据的获取速度与精确度大大提升。如何实现高效准确的点云目标检测，是智能驾驶、遥感、增强现实、虚拟现实等领域的重要问题。与传统的二维目标检测相比，三维目标检测需要更多的输出参数来确定目标的边界框。而由于LiDAR点云的数据特性，在目标检测任务中，常常会面临输入数据分辨率低、纹理和颜色信息缺失、计算开销大等问题，因而更具挑战性。
[0003]面对这些问题，多模态信息融合的方法成为了该领域的研究重点。目前，多模态融合方法主要分为三种：早期融合、后期融合、深度融合。早期融合方法在对原始传感器数据做特征提取之前做特征融合，代表方法为PI
‑
RCNN(点云
‑
图像区域卷积神经网络)，该算法直接在三维点云上进行逐点连续卷积，并应用点池化和注意集中操作以获得更好的融合性能。后期融合是最为简便的融合方法，仅在决策层进行融合，避免了不同传感器数据差异带来的问题，降低了算法的复杂性。深度融合方法在特征层面进行交互，对跨模态信息的利用最为充分，代表方法为MV3D(多视图三维目标检测)网络，该网络由两个子网络组成：一个用于生成三维目标候选区域，另一个用于多视图特征融合。
[0004]现行多模态融合目标...

【技术保护点】

【技术特征摘要】
1.一种基于多模态信息融合的多目标检测方法，其特征在于，所述方法包括以下步骤：对LiDAR点云数据进行处理，提取LiDAR点云特征，获取三维特征图；对RGB图像进行二维图像数据处理，通过特征提取网络输出RGB图像特征，获取二维特征图；将三维与二维的特征图通过共享参数的卷积神经网络进行前向传递，根据交叉熵对卷积神经网络进行训练，实现三维与二维特征融合；将融合后的三维特征图输入到三维区域生成网络中，该网络通过两个分支分别对三维特征图进行映射，分别输出三维目标检测框位置图与概率分数图；将融合后的二维特征图输入到二维区域生成网络中，输出二维目标检测框位置图与概率分数图，此时分别得到点云数据与RGB二维图像中目标的位置及检测的概率分数图；采取后融合的策略，将两种模态下的目标检测框进行融合得到最终的目标检测结果。2.根据权利要求1所述的一种基于多模态信息融合的多目标检测方法，其特征在于，所述对LiDAR点云数据进行处理，提取LiDAR点云特征，获取三维特征图为：将点云均匀分组为若干体素，将稀疏不均匀的点云转换为密集的张量结构，通过堆叠体素特征编码层得到体素特征的列表，经过卷积中间层，在逐渐扩大的感受野中对体素特征进行聚合，输出LiDAR点云特征，即三维特征图。3.根据权利要求1所述的一种基于多模态信息融合的多目标检测方法，其特征在于，所述对RGB图像进行二维图像数据处理，通过特征提取网络输出RGB图像特征，获取二维特征图具体为：在二维RGB图像上进行均匀的分组操作，每个组块的宽度和高度与LiDAR点云数据处理中的体素相等；通过由卷积层、池化层以及线性整流层组成的特征提取网络，输出RGB图像特征，即二维特征图。4.根据权利要求2所述的一种基于多模态信息融合的多目标检测方法，其特征在于，所述将稀疏不均匀的点云转换为密集的张量结构具体为：将体素坐标与体素中点的坐标作为键值对，构建哈希表，实现体素的查找与初始化，体素输入特征和坐标缓冲区通过对点列表的一次遍历来构造。5.根据权利要求2所述的一种基于多模态信息融合的多目标检测方法，其特征在于，所述采取后融合的策略，将两种模态的目标检测框融合得到最终的目标检测结果具体为：采用混合表示的方式表示两种模态的检测结果：其中，IoU
i
为二维与三维边界框的交并比，用于表示在图像中的第i个检测结果和点云中的第j个的几何一致性；为二维检测的第i个检测到的物体置信度分数；为在点云场景下的置信度分数；d
j
表示在点云场景下检测到的第j个物体到地面的归一化距离；若二维与三维检测网络均...

【专利技术属性】
技术研发人员：聂为之，高思洁，马瑞鑫，刘通，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人