【技术实现步骤摘要】
一种多模态弱监督三维目标检测方法、系统及设备
[0001]本专利技术涉及自动驾驶领域,特别是涉及一种多模态弱监督三维目标检测方法、系统及设备。
技术介绍
[0002]近年来深度学习飞速发展,但目前网络需要较强的监督信息,三维目标检测作为自动驾驶和机器人领域的重要任务,也被研究者所关注,全监督三维目标检测的精度依赖于人工标注的三维包围框,人工操作繁重。
[0003]目前弱监督三维目标检测方法主要针对车辆类别,但实际道路上除了车辆外还有行人和骑自行车的人等类别。目前弱监督三维目标检测方法依然缺乏对于行人和骑自行车的人这类外边缘不明确物体的研究。针对行人和骑自行车的人类别目前的难点在于:
[0004]1)难以估计三维参数:车辆类别的物体具有明显的三维外边缘,相对具有更大的体积,且在数据集中数目众多,所以车辆能够较为容易的推测其三维参数(三维位置、三维尺寸以及朝向),行人和骑自行车的人三维点集中呈现出中心密度高两侧密度低的形态,所以无法像视锥感知几何推理(Frustum
‑
Aware Geometr ...
【技术保护点】
【技术特征摘要】
1.一种多模态弱监督三维目标检测方法,其特征在于,包括:利用摄像头拍摄多张2D RGB图像,并基于每一张所述2D RGB图像上的二维框标注生成三维视锥;在所述三维视锥中,滤除车辆激光雷达传感器采集的三维点云中的地面点,并依靠种子点区域生长方法,确定滤除后的三维视锥中三维点数目最多的区域;基于密度的三维参数估计方法,利用主控芯片,根据每个滤除后的三维视锥中三维点数目最多的区域生成物体的三维伪标注框;所述物体为行人或自行车;利用所述主控芯片,以所述三维伪标注框为目标,根据所述2D RGB图像以及所述三维点云训练多模态超像素双分支网络,生成训练后的多模态超像素双分支网络;获取所述摄像头拍摄的当前帧的2D RGB图像以及所述车辆激光雷达传感器采集的当前场景的三维点云,并将所述当前帧的2D RGB图像以及所述当前场景的三维点云输入至所述训练后的多模态超像素双分支网络中,生成当前场景的三维物体预测框;所述三维物体预测框用于定位所述车辆周围的物体,预测当前车辆周围物体的尺寸以及朝向。2.根据权利要求1所述的多模态弱监督三维目标检测方法,其特征在于,所述基于密度的三维参数估计方法,利用主控芯片,根据每个滤除后的三维视锥中三维点数目最多的区域生成物体的三维伪标注框,具体包括:滤除所述三维点数目最多的区域中的黏连噪声点云,生成滤除后的三维点云;采用迭代式搜索所述滤除后的三维点云的俯视图旋转框,渐进删除所述滤除后的三维点云中最低的点云密度,直到关键点位置保持不变,退出迭代,生成所述滤除后的三维点云的俯视图旋转框;所述关键点为所述旋转框的四个角点中包含最多三维点的角点;将所述关键点向所述滤除后的三维视锥的两侧进行扩张,同时利用所述物体的统计信息约束扩张长度,以长边的向量方向作为所述物体的实际朝向,生成三维伪标注框。3.根据权利要求2所述的多模态弱监督三维目标检测方法,其特征在于,所述利用所述主控芯片,以所述三维伪标注框为目标,根据所述2D RGB图像以及所述三维点云训练多模态超像素双分支网络,生成训练后的多模态超像素双分支网络,具体包括:利用局部一致性先验,将二维中局部像素块与三维中的一个点在空间上对应,生成投影关系;采用ResNet50提取所述2D RGB图像的图像特征图,并将所述图像特征图上采样到与输入图像的尺寸一致;所述输入图像为任一所述2D RGB图像;对所述输入图像进行超像素分割,根据超像素分割结果在所述图像特征图上求取各个超像素特征;根据所述投影关系将所述超像素特征赋值至各个三维点;采用三维卷积提取点云初始特征以及带有超像素特征的三维点的点云特征,并将所述点云特征投影至俯视图中生成俯视特征图;融合所述俯视特征图中的点云特征与所述点云初始特征,生成融合特征;采用所述融合特征为目标分类的特征,训练多模态超像素双分支网络,生成训练后的多模态超像素双分支网络。4.根据权利要求3所述的多模态弱监督三维目标检测方法,其特征在于,还包括:在所述多模态超像素双分支网络的训练过程中,采用随机丢弃超像素特征的训练方法
训练所述多模态超像素双分支网络,以0填充丢弃的超像素特征。5.一种多模态弱监督三维目标检测系统,其特征在于,包括:三维视锥生成模块,用于利用摄像头拍摄多张2D RGB图像,并基于每一张所述2D RGB图像上的二维框标注生成三维视锥;滤除模块,用于在所述三维视锥中,滤除车辆激光雷达传感器采集的三维点云中的地面点,并依靠...
【专利技术属性】
技术研发人员:马惠敏,刘海壮,王艺霖,王荣全,
申请(专利权)人:北京科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。