System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种通过自监督深度估计的单目BEV感知方法技术_技高网

一种通过自监督深度估计的单目BEV感知方法技术

技术编号:41072449 阅读:6 留言:0更新日期:2024-04-24 11:29
本发明专利技术公开了一种通过自监督深度估计的单目BEV感知方法,涉及人工智能技术领域。包括:取某个时刻图像输入第一骨干网络得到高阶图像特征;将一部分图像特征输入上下文信息提取网络进行特征提取;将另一部分图像特征输入深度预测网络进行深度分布预测;自监督深度估计模块将深度分布特征结果转化为3D深度信息;上下文特征结果和3D深度信息外积得到3D体素特征;3D体素特征通过第二骨干网络得到2D BEV特征图;利用2D BEV特征图进行3D感知任务获得感知结果。本发明专利技术将单目BEV感知与自监督深度估计巧妙地结合起来,利用自监督深度估计模块来帮助BEV感知任务,从而构建空间位置更加准确的BEV特征图。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种通过自监督深度估计的单目bev感知方法。


技术介绍

1、自动驾驶车辆或者移动机器人的感知系统通常由多种互补的传感器组成,常见的有摄像头、lidar以及imu。摄像头能提供包含丰富纹理以及场景结构的二维图像,但是损失了场景的深度信息,同时摄像头对光照敏感;lidar通过主动发射和接收激光的方式构建3d空间点云,提供了准确的场景三维空间信息,并且不受场景的光照影响;imu由三轴的陀螺仪和三轴的加速度计组成,通过测量三轴的角速率和三轴的加速度然后通过运动物理模型解算出物体的姿态,imu能获取带有绝对尺度的位姿,大量用在需要进行运动控制的设备上。由于imu的原始测量结果是各个时刻的加速度和角速度,而在感知任务中需要将imu的测量结果转换为两个时刻之间的位姿变换,也就是平移和旋转。根据运动学模型,imu观测值受多种因素的影响,一般只考虑加性噪声以及缓慢变换的偏差。

2、3d感知在自动驾驶车辆和移动机器人技术中发挥着重要作用,其目的是感知环境并获取空间信息。bev表示适用于自动驾驶车辆和移动机器人的3d感知任务,例如3d对象检测和分割。存在一个强烈的假设,即地面是平坦的,所有物体都在地面上。最有用的信息存在于地平面的两个维度中,而不是高度维度中。此外,在bev表示中不存在遮挡或比例问题,它们通常存在于透视图中。此外,以bev形式表示对象和环境将有利于下游应用,例如预测和规划。

3、单目3d目标检测中通常需要进行深度估计,一般是将回归问题转化为分类问题,先根据数据集确定深度的最大值和最小值,然后在这个范围内划分多个区间,从而变成分类问题,预测深度值属于哪个区间。纯视觉3d感知的核心问题是2d图像天然不保留3d信息,因此当从2d图像中提取深度信息不准确时,很难获得目标的准确3d定位。纯视觉3d感知根据输入可以分为三个领域:单目相机、双目立体相机和环视多相机,双目立体相机标定之后可以通过几何关系获取相对比较准确的深度,而环视多相机各个相机之间的重叠很少,大多数处理方式是将各个相机图像的特征或者结果聚合在一起,也就是基于单目的基准。

4、基于摄像头的bev感知是一项广泛适用的任务,其应用的摄像头价格便宜且适用于移动机器人。在机器人场景中,摄像头通常与地面平行安装并朝外。相机拍摄的图像是透视图,与bev正交。相机数据包含密集的颜色和纹理信息,但很难捕捉到精确的深度信息,因此单目bev感知方法必须显式或隐式预测深度。现有技术中提到的方法是通过将全监督深度估计引入训练阶段或加载深度预训练模型作为主干来增强深度估计以改善bev感知。然而,这些工作中的深度监督需要额外的深度真值数据。

5、目前在单目bev感知上的研究集中在探索如何充分挖掘图像中包含的场景结构信息以获得更加准确的深度。最新的方法包括用激光雷达点云的深度作为真值在单目bev感知模型训练过程中进行监督,或者利用相机时序图像构建多视图作为输入。相机对于光照十分敏感,自动驾驶车辆或者移动机器人的工作环境也不理想。并且目前大多数单目bev感知算法都十分依赖相机内参,而自动驾驶车辆上的相机长期处于运动状态,相机的内参随着时间的增加会出现漂移,因此如何降低算法对相机内参的依赖性或增加算法对相机内参的鲁棒性同样是目前面临的实际挑战。而数据采集车上一般有多种传感器,采集的训练数据通常包含多个模态的数据,如何用其他模态的数据在训练过程中帮助单目bev感知模型学习,实现在推理过程中不需要使用其他模态的数据,从而降低了成本同时提升感知性能同样是目前面临的实际挑战。

6、因此,提出一种通过自监督深度估计的单目bev感知方法,来解决现有技术存在的困难,是本领域技术人员亟需解决的问题。


技术实现思路

1、有鉴于此,本专利技术提供了一种通过自监督深度估计的单目bev感知方法,实现了在推理过程中不需要使用其他模态的数据,降低成本,提升感知性能。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、一种通过自监督深度估计的单目bev感知方法,包括以下步骤:

4、s1.获取各个时刻的图像,组成图像数据集;

5、s2.从图像数据集中取某个时刻图像输入第一骨干网络进行编码,得到第一高阶图像特征和第二高阶图像特征;

6、s3.将得到的第一高阶图像特征输入上下文信息提取网络进行特征提取,得到图像上下文特征结果;

7、s4.将得到的第二高阶图像特征输入深度预测网络进行深度分布预测,得到深度分布特征结果;

8、s5.利用构建好的自监督深度估计模块将深度分布特征结果转化为3d深度信息;

9、s6.将图像上下文特征结果和3d深度信息进行外积,得到3d体素特征;

10、s7.3d体素特征通过第二骨干网络进行压缩和bev空间特征提取,得到2d bev特征图;

11、s8.利用2d bev特征图进行3d感知任务,获得感知结果。

12、可选的,s1中利用单目相机获取各个时刻的待检测目标图像,组成的图像数据集为二维图像数据集。

13、可选的,s5中基于dynadepth构建自监督深度估计模块。

14、可选的,s5中利用构建好的自监督深度估计模块将深度分布特征结果转化为3d深度信息的步骤包括:

15、s51.获取下个时刻图像;

16、s52.将下个时刻图像输入特征提取网络,得到特征提取结果;

17、s53.利用特征提取结果调整深度信息,得到第一深度信息;

18、s54.第一深度信息通过引入的imu数据再次进行调整,将深度分布特征结果转化为3d深度信息。

19、可选的,s8中通过各个任务的预测头结构获得感知结果。

20、可选的,s8中的任务包括3d目标检测和bev全景分割。

21、经由上述的技术方案可知,与现有技术相比,本专利技术提供了一种通过自监督深度估计的单目bev感知方法,具有以下有益效果:

22、(1)提出了一个全新的框架将单目bev感知与自监督深度估计巧妙地结合起来,利用自监督深度估计模块来帮助bev感知任务,从而构建空间位置更加准确的bev特征图。

23、(2)自监督深度估计模块为了使自监督深度估计预测的深度尺度与bev感知任务预测的深度尺度一致,引入了原始imu传感器的数据来解决自监督深度估计的尺度模糊问题。

本文档来自技高网...

【技术保护点】

1.一种通过自监督深度估计的单目BEV感知方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种通过自监督深度估计的单目BEV感知方法,其特征在于,

3.根据权利要求1所述的一种通过自监督深度估计的单目BEV感知方法,其特征在于,

4.根据权利要求1所述的一种通过自监督深度估计的单目BEV感知方法,其特征在于,

5.根据权利要求4所述的一种通过自监督深度估计的单目BEV感知方法,其特征在于,

6.根据权利要求1所述的一种通过自监督深度估计的单目BEV感知方法,其特征在于,

【技术特征摘要】

1.一种通过自监督深度估计的单目bev感知方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种通过自监督深度估计的单目bev感知方法,其特征在于,

3.根据权利要求1所述的一种通过自监督深度估计的单目bev感知方法,其特征在于,

<...

【专利技术属性】
技术研发人员:陈其民刘俊杰覃莹薇祁丹丹陈劲全余卫宇
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1