当前位置: 首页 > 专利查询>南京大学专利>正文

纯视觉自动驾驶场景空间占据识别方法、系统及存储介质技术方案

技术编号:37961745 阅读:8 留言:0更新日期:2023-06-30 09:36
本发明专利技术公开了一种纯视觉自动驾驶场景中的三维空间占据识别方法、系统及存储介质,空间占据识别方法包括:获取自动驾驶场景各个环视视图图片的二维特征和深度概率;基于各个环视视图图片的内外参使用3D到2D的投影得到三维空间每个位置的特征值;根据得到的三维空间每个位置的特征值进行分类,得到每个位置的占据预测。本发明专利技术方法能够很好的解决现有的从二维投影三维的方法中得到的三维特征过于稀疏的问题,此外,本方法直接预测三维空间中每个位置的占据情况,而不是给出每个物体的包围盒,因此更加鲁棒并且利于下游控制,能够识别出数据集中不存在的类别,相比较于三维包围盒,直接预测三维空间中的占据情况能够得到更准确的三维空间中物体的形状信息。准确的三维空间中物体的形状信息。准确的三维空间中物体的形状信息。

【技术实现步骤摘要】
纯视觉自动驾驶场景空间占据识别方法、系统及存储介质


[0001]本专利技术属于计算机视觉与自动化领域,具体涉及一种纯视觉自动驾驶场景中的空间占据识别方法、系统及存储介质。

技术介绍

[0002]随着自动驾驶的发展,自动驾驶的感知系统越来越重要,传统的感知系统主要依赖于车载雷达和相机对车辆周围的环境进行检测,以三维包围盒的方式给出检测结果,但是由于在实际场景中存在数据集无法覆盖的情况例如异性车辆以及数据集未标注的类别,这时传统的检测方法就会无法给出结果。因此需要一种更加鲁棒的算法对周围环境进行感知。

技术实现思路

[0003]针对上述问题,本专利技术提出一种纯视觉自动驾驶场景中的三维空间占据识别方法、系统及存储介质,能够在复杂场景下实现点云的快速识别。
[0004]一种纯视觉自动驾驶场景中的三维空间占据识别方法,包括:
[0005]步骤1,获取自动驾驶场景的环视视图图片;
[0006]步骤2,获取各个环视视图的二维特征和深度概率;
[0007]步骤3,基于图片的内外参使用3D到2D的投影得到三维空间每个位置的特征值;
[0008]步骤4,使用交叉熵损失监督深度预测的结果,使用FocalLoss监督三维语义分类器的结果。
[0009]优选的,步骤2包括:
[0010]步骤2

1,使用ResNet算法对环视视图图片提取特征,ResNet由四组ResBlock组成,每组ResBlock会对输入的图片进行卷积和下采样的操作,对于六张环视大小为1600x928x3的图片经过卷积神经网络和下采样可以得到六张大小为50x29x1024的特征图;
[0011]步骤2

2,对提取到的特征图F使用DepthNet进行深度概率预测,其中每个位置预设置一组分布,DepthNet由两组卷积神经网络组成,DepthNet预测在这组深度中不同地方的概率D,其中D的大小为50x29x60,60代表预设置的60组深度位置;
[0012]优选的,步骤3包括:
[0013]步骤3

1:将三维空间划分成相同大小的网格,把每个网格的中心点投影至各个二维视图得到对应二维视图过程如下:
[0014][0015][0016][0017]其中,
w
,Y
w
,Z
w
为空间点世界坐标系的坐标,R为相机的旋转矩阵,t为相机的平移向量,X
C
,Y
C
,Z
C
为空间点在相机坐标系的坐标;x,y为空间点在图像坐标系的坐标;u,v为空间点在像素坐标系的坐标,dx,Dy为相机在u轴和v轴方向上的尺寸因子;
[0018]步骤3

2:根据投影得到的u,v坐标使用双线性插值算法对对应视图的特征图F进行计算得到特征值;
[0019]步骤3

2:据投影得到的u,v,Z
c
坐标对对应视图的深度预测结果D进行三线性插值得到对应的深度概率;
[0020]步骤3

3:将相同位置的特征值和深度概率相乘得到三维空间对应位置的三维特征。
[0021]步骤4:使用三维卷积神经网络对得到的三维特征提取得到占据特征,对得到的特征使用语义分类器进行分类,得到三维空间中每个位置的识别结果:被占据或者为空,所有物体所在的空间都视为被占据,这样就能够检测出未出现在数据集中的物体。
[0022]本专利技术还提供纯视觉自动驾驶场景中的三维空间占据识别系统,包括存储介质和处理器;
[0023]所述存储介质用于存储指令;
[0024]所述处理器用于根据所述指令进行操作以执行根据第一方面中任一项所述方法的步骤。
[0025]本专利技术还提供一种计算机可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如上述所述的三维空间占据识别方法。
[0026]与现有技术相比,本专利技术的有益效果:
[0027]本专利技术方法能够很好的解决现有的从二维投影三维的方法中得到的三维特征过于稀疏的问题,此外,本方法直接预测三维空间中每个位置的占据情况,而不是给出每个物体的包围盒,因此更加鲁棒并且利于下游控制,相比于检测的方法,此方法能够识别出数据集中不存在的类别,相比较于三维包围盒,直接预测三维空间中的占据情况能够得到更准确的三维空间中物体的形状信息,并且对于未标注的三维物体如地面等都可以很好的检测出来。
附图说明
[0028]图1本专利技术方法的流程图。
[0029]图2为获取的自动驾驶场景的环视视图图片。
[0030]图3为检测结果图。
具体实施方式
[0031]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于
限定本专利技术的保护范围。
[0032]下面结合附图对本专利技术的应用原理作详细的描述。
[0033]一种纯视觉自动驾驶场景中的三维空间占据识别方法,参见图1,具体包括:
[0034]步骤1,获取自动驾驶场景的环视视图图片,如图2;
[0035]步骤2,获取各个环视视图的二维特征和深度概率;
[0036]在一个实施例中,步骤2包括:
[0037]步骤2

1,使用ResNet算法对环视视图图片提取特征,得到特征图;
[0038]在一个实施例中,ResNet由四组ResBlock组成,每组ResBlock对输入的环视视图图片进行卷积和下采样的操作,对于六张环视大小为1600x928x3的图片经过卷积神经网络和下采样可以得到六张大小为50x29x1024的特征图;
[0039]步骤2

2,对提取到的特征图使用DepthNet模型进行深度概率预测,其中每个位置预设置一组分布;
[0040]在一个实施例中,DepthNet模型由两组卷积神经网络组成,DepthNet预测在这组深度中不同地方的概率D,其中D的大小为50x29x60,60代表预设置的60组深度位置;
[0041]步骤3,基于图片的内外参使用3D到2D的投影得到三维空间每个位置的特征值。
[0042]优选的,步骤3包括:
[0043]步骤3

1:将三维空间划分成相同大小的网格,把每个网格的中心点投影至各个二维视图得到对应二维视图过程如下:
[0044][0045][0046][0047]其中,X
w
,Y
w
,Z
w
为空间点世界坐标系的坐标,R为相机的旋转矩阵,t为相机的平移向量,X
C
,Y
C
,Z
C
为空间点在相机坐标系的坐标;x,y为空间点在图像坐标系的坐标;u,v为空间点在像素本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种纯视觉自动驾驶场景中的三维空间占据识别方法,其特征在于,包括:获取自动驾驶场景各个环视视图图片的二维特征和深度概率;基于各个环视视图图片的内外参使用3D到2D的投影得到三维空间每个位置的特征值;根据得到的三维空间每个位置的特征值进行分类,得到每个位置的占据预测。2.根据权利要求1所述的一种纯视觉自动驾驶场景中的三维空间占据识别方法,其特征在于:获取自动驾驶场景各个环视视图图片的二维特征和深度概率,包括:使用ResNet算法对各个环视视图图片提取特征,得到各个环视视图的特征图F;对提取到的各个环视视图的特征图使用DepthNet模型进行深度概率预测,得到在深度中不同地方的概率D,其中每个位置预设置一组分布。3.根据权利要求2所述的一种纯视觉自动驾驶场景中的三维空间占据识别方法,其特征在于:ResNet由四组ResBlock组成,每组ResBlock对输入的环视视图图片进行卷积和下采样的操作。4.根据权利要求2所述的一种纯视觉自动驾驶场景中的三维空间占据识别方法,其特征在于:DepthNet模型由两组卷积神经网络组成,DepthNet模型预测在这组深度中不同地方的概率D。5.根据权利要求1

4任一所述的一种纯视觉自动驾驶场景中的三维空间占据识别方法,其特征在于,基于各个环视视图图片的内外参使用3D到2D的投影得到三维空间每个位置的特征值,包括:等间距划分成相同大小的网格,把每个网格的中心点投影至各个二维视图:等间距划分成相同大小的网格,把每个网格的中心点投影至各个二维视图:等间距划分成相同大小的网格,把每个网格的中心点投影至各个二维视图:其中,X
w
,Y

【专利技术属性】
技术研发人员:路通方明胜李志琦
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1