一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法技术

技术编号：37602942 阅读：24 留言：0更新日期：2023-05-18 11:54

本发明专利技术提出一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法。其主要步骤为，使用已知内参的相机拍摄某个场景下一定长度的视频序列帧，再利用序列图像之间的投影关系自监督地训练单目深度网络，学习序列图像的单目深度估计值；随后通过预训练好的实例分割网络对图像直接预测其实例分割结果，将得到的实例分割结果结合相机内参和学习好的单目深度估计值反投影至三维空间中，得到每个实例的伪雷达数据；最后利用无监督聚类方法滤除离群点，在鸟瞰视角(x

全部详细技术资料下载

【技术实现步骤摘要】
一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法

[0001]本专利技术涉及目标检测领域，提出了一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法。

技术介绍

[0002]随着深度学习的发展，许多计算机视觉相关的任务都打破了传统方法的局限并得到了突破性的发展，例如新兴的自动驾驶领域，依靠着目标检测、场景语义理解等上游任务的高度精确性、可靠性，人们可以尝试通过例如三维目标检测这样的手段，完成对自动驾驶方面的相关控制。三维目标检测任务根据传感器输入数据的形式不同，可以大致分为三个流派：激光雷达式、多目式和单目式的三维目标检测。其中，单目三维目标检测的任务是指在只有单目图像作为数据输入的情况下，结合相机的参数，完成图像中目标在三维空间下的检测。
[0003]在这些形式中，激光雷达虽然精度较高，但是仪器价格高昂且探测距离受限，往往还需要结合多目相机共同完成一个自动驾驶传感系统的搭建，例如当今TESLA、百度Apollo等企业都已经有了较为成熟的多目结合激光雷达的方案。然而，如果一个自动驾驶系统能够仅仅依...

【技术保护点】

【技术特征摘要】
1.一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于，包括以下步骤：(1)获取相机内参矩阵；(2)使用该相机，拍摄某个场景下一定长度的视频序列帧；(3)通过自监督单目深度网络，利用序列图像之间的投影关系，自监督地训练学习，得到序列图像的单目深度估计值；(4)通过预训练的实例分割网络，对图像直接预测得到其实例分割结果；(5)将得到的实例分割结果，结合步骤(3)学习到的单目深度估计值，以及步骤(1)获取的相机内参矩阵，反投影至三维空间中，得到每个实例的区域三维点集；(6)利用无监督聚类方法对每个实例的区域三维点集进行聚类，进一步滤除离群点，得到实例主体三维点集，随后在BEV(Bird
’
s Eye View，鸟瞰视角)中求解实例主体三维点集的最小外接矩形，得到其x
‑
z平面的二维包围框，并求取实例主体三维点集的y轴方向最大
‑
最小高度差，将y轴方向最大
‑
最小高度差作为y轴高度，最终得到物体的三维检测包围框。2.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于步骤(3)中通过自监督单目深度网络，利用序列图像之间的投影关系得到序列图像的单目深度估计值，其具体过程为：先预测当前帧和临近帧的单目深度估计值和位姿变换矩阵，再将临近帧的单目深度估计值进行位姿变换，得到临近帧位姿变化后的单目深度估计值，将其与当前帧的单目深度估计计算损失，以实现自监督的训练学习。3.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于步骤(4)中所使用的预训练实例分割网络，在其预训练过程使用的数据集应该包含三维目标检测任务所需检测目标类别，并具有良好的泛化性能。4.如权利要求1所述的一种基于视频序列和预训练实例分割的无监督单目三维目标检测方法，其特征在于步骤(5)中实例分割结果，结合单目深度估计值、相机内参矩阵反投影的具体过程为：(4.1)将实例分割后的像素点p转化为齐次坐标形式p＝(u,v,1)，其中u,v为像素点在二维图像上的以像素为单位的横纵坐标；(4.2)将步骤(3)中得到的单目深度估计d
p
＝D
t
(p)，结合步骤(1)得到的相机内参矩阵K，计算得到像素点p在三维场景中的坐标(U,V,W,1)
T
＝K
‑1d
p
(u,v,1)
T
，其...

【专利技术属性】
技术研发人员：百晓，范嘉楠，郑锦，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人