当前位置: 首页 > 专利查询>之江实验室专利>正文

多模态后融合的长尾类别检测方法和系统技术方案

技术编号:39288181 阅读:12 留言:0更新日期:2023-11-07 10:58
本申请涉及一种多模态后融合的长尾类别检测方法和系统。所述方法包括:利用第一目标检测模型检测当前场景的点云数据,得到第一目标检测结果;利用第二目标检测模型检测当前场景的图像数据,得到第二目标检测结果;将第一目标检测结果中的三维检测框投影到图像数据的坐标系中,与第二目标检测结果中的二维检测框进行配对;若配对结果中长尾类别的上级类别相匹配,则将两者的置信度进行融合,并更新配对结果;基于点云数据的三维检测框、第三置信度以及图像数据的第二长尾类别,确定更新后的配对结果的长尾类别检测结果。通过本方法能够实现多模态的长尾类别检测,通过轻量级模型,提高长尾类别的检测效率和检测结果的输出精度。度。度。

【技术实现步骤摘要】
多模态后融合的长尾类别检测方法和系统


[0001]本申请涉及长尾检测
,特别是涉及一种多模态后融合的长尾类别检测方法和系统。

技术介绍

[0002]智能驾驶技术是未来汽车产业的重要发展方向之一,智能驾驶汽车必须准确的检测出常见类和稀有类的物体才能安全行驶,而目前常见的基于激光雷达的三维目标检测方法在稀有类别上表现不佳,一方面是因为稀有类别的目标数量较少,训练难度大,另一方面是因为激光雷达传感器无法获得颜色,纹理等特征,因此对于救护车,警车等稀有类别难以准确分类。
[0003]在当前研究中,“长尾”类别检测效果较好的是论文《Towards long

tailed 3d detection》提出的方法,该方法采用单目图像做三维检测,将检测结果和激光雷达检测结果做后融合得到“长尾”类别的检测结果,其缺点是单目图像三维检测的模型训练难度大,检测精度较低,会影响最终融合的检测结果。

技术实现思路

[0004]基于此,有必要针对上述技术问题,提供一种能够减小模型训练难度、提高长尾检测精度的多模态后融合的长尾类别检测方法和系统。
[0005]第一方面,本申请提供了一种多模态后融合的长尾类别检测方法,所述方法包括:利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果;及利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果;其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别;所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别;将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果;若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新;基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果。
[0006]在其中一个实施例中,所述利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果包括:基于设定的点云采集设备的坐标系区间,对当前场景的初始点云数据进行过滤,得到所述当前场景的点云数据;对所述当前场景的点云数据进行体素化,生成所述当前场景的点云数据对应的多个体素特征;
将所述多个体素特征进行融合,得到所述当前场景的点云数据的特征张量;将所述特征张量输入所述第一目标检测模型,得到所述第一目标检测结果。
[0007]在其中一个实施例中,所述利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果包括:获取点云采集设备所采集点云的至少一个三维标注框,在对应场景的图像数据的坐标系上进行投影,得到所述对应场景的图像数据上的二维标注框,所述三维标注框为基于点云数据的人为标注框;将所述对应场景的图像数据和所述二维标注框输入所述第二目标检测模型进行训练,得到训练完备的所述第二目标检测模型;将所述当前场景的图像数据输入训练完备的所述第二目标检测模型,得到所述第二目标检测结果。
[0008]在其中一个实施例中,所述将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果包括:基于点云采集设备和图像采集设备的外部参数以及所述图像采集设备的内部参数,将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,得到在所述图像数据上的二维投影框;基于设定的重合率阈值,将所述二维投影框与所述第二目标检测结果中的所述二维检测框进行配对计算,得到所述配对结果。
[0009]在其中一个实施例中,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度包括:基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:Fusion
ave
[i]=Ave(Calibration1[c]×
score2[i],score3[i]),其中,Fusion
ave
[i]表示所述第三置信度,Calibration1[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示第一置信度,Ave()为平均值函数;基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数;若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数;利用所述标定后的置信度参数计算得到所述第三置信度,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
[0010]在其中一个实施例中,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度还包括:基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:Fusion
num
[i]=Max(Calibration2[c]×
score2[i],score3[i]),
其中,Fusion
num
[i]表示所述第三置信度,Calibration2[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Max()为最大功能值函数;基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数;若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数;利用所述标定后的置信度参数计算得到所述第三置信度,若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。
[0011]在其中一个实施例中,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度还包括:基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式(1),得到所述配对结果的第三置信度:Fusion
bayes
[i]=Bayes(Calibration3[c]×
score2[i],score3[i])
ꢀꢀ
(1),其中,Fusion
bayes
[i]表示所述第三置信度,Calibration3[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示所述第一置信度,Bayes()为贝叶斯函数,其中贝叶斯函数的计算方法如以下公式(2):,其中,x1表示Ca本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态后融合的长尾类别检测方法,其特征在于,所述方法包括:利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果;及利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果;其中,所述第一目标检测结果包括三维检测框、第一置信度和第一长尾类别;所述第二目标检测结果包括二维检测框、第二置信度和第二长尾类别;将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果;若所述配对结果中的所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配,则对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度,并对所述配对结果进行更新;基于所述三维检测框、所述第三置信度以及所述第二长尾类别,确定更新后的配对结果对应的待检测目标的长尾类别检测结果。2.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述利用第一目标检测模型对当前场景的点云数据进行检测,得到第一目标检测结果包括:基于设定的点云采集设备的坐标系区间,对当前场景的初始点云数据进行过滤,得到所述当前场景的点云数据;对所述当前场景的点云数据进行体素化,生成所述当前场景的点云数据对应的多个体素特征;将所述多个体素特征进行融合,得到所述当前场景的点云数据的特征张量;将所述特征张量输入所述第一目标检测模型,得到所述第一目标检测结果。3.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述利用第二目标检测模型对当前场景的图像数据进行检测,得到第二目标检测结果包括:获取点云采集设备所采集点云的至少一个三维标注框,在对应场景的图像数据的坐标系上进行投影,得到所述对应场景的图像数据上的二维标注框,所述三维标注框为基于点云数据的人为标注框;将所述对应场景的图像数据和所述二维标注框输入所述第二目标检测模型进行训练,得到训练完备的所述第二目标检测模型;将所述当前场景的图像数据输入训练完备的所述第二目标检测模型,得到所述第二目标检测结果。4.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,与所述第二目标检测结果中的所述二维检测框进行配对,得到配对结果包括:基于点云采集设备和图像采集设备的外部参数以及所述图像采集设备的内部参数,将所述第一目标检测结果中的所述三维检测框投影到所述图像数据的坐标系中,得到在所述图像数据上的二维投影框;基于设定的重合率阈值,将所述二维投影框与所述第二目标检测结果中的所述二维检测框进行配对计算,得到所述配对结果。5.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度包括:
基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:Fusion
ave
[i]=Ave(Calibration1[c]
×
score2[i],score3[i]),其中,Fusion
ave
[i]表示所述第三置信度,Calibration1[c]表示长尾类别的置信度参数,score2[i]表示所述第二置信度,score3[i]表示第一置信度,Ave()为平均值函数;基于所述第三置信度,对所述配对结果对应的长尾类别的置信度参数进行迭代标定,得到标定后的置信度参数;若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留最新的配对结果对所述长尾类别的置信度参数进行迭代标定,得到所述标定后的置信度参数;利用所述标定后的置信度参数计算得到所述第三置信度;若针对同一待检测目标,存在多个所述第一长尾类别的上级类别与所述第二长尾类别的上级类别相匹配的配对结果,则保留所述第三置信度最高的配对结果。6.根据权利要求1所述的多模态后融合的长尾类别检测方法,其特征在于,所述对所述配对结果中的第一置信度与第二置信度进行融合得到第三置信度还包括:基于设定的不同长尾类别的置信度参数的初始标定值,利用以下公式,得到所述配对结果的第三置信度:Fusion
num
[i]=Max(Calibration2[c]
×
score2[i]...

【专利技术属性】
技术研发人员:马也驰华炜张楚润位硕权李亚南孔庶
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1