当前位置: 首页 > 专利查询>郑州大学专利>正文

一种基于视觉和深度线索的自动驾驶场景检测方法技术

技术编号:39753517 阅读:9 留言:0更新日期:2023-12-17 23:52
本发明专利技术公开了一种基于视觉和深度线索的自动驾驶场景检测方法,本发明专利技术的

【技术实现步骤摘要】
一种基于视觉和深度线索的自动驾驶场景检测方法


[0001]本专利技术涉及自动驾驶汽车的环境检测
,具体涉及一种基于视觉和深度线索的自动驾驶场景检测方法


技术介绍

[0002]自动驾驶是当今最具挑战性和令人兴奋的研究课题之一

研究动驾驶的主要动机之一是减少碰撞事故,减少交通事故和死亡人数

其次自动驾驶还可以减少排放,最后自动驾驶还有助于运送行动不便的人并减少与驾驶相关的压力

所以自动驾驶必须安全处理所有场景,这对汽车的感知和决策能力提出了极大的挑战

这包括在遮挡

天气条件等在内的任意情况下处理各种不同的对象,并导致在传感器布局

软件设计和开发过程方面的系统设计方法大不相同

[0003]在应对这些巨大技术挑战的自动驾驶的潜在方法中,目前有端到端方法,其中单个模块获取所有传感器的所有输入数据并输出操作,例如油门踏板和方向盘

通常,这是使用深度神经网络来解决的,这些网络经过训练可以重现在训练阶段向网络显示的人类驾驶

尽管这种方法由于其简单性而看起来很有吸引力,但它有几个关键的缺点

由于自动驾驶任务的安全性至关重要,开发人员需要了解系统在哪些情况下可靠工作

然而,这是深度神经网络的主要缺点之一,其错误行为很难预测

此外,这种方法在训练期间的数据使用方面效率不高,因此,训练这种方法所需的数据量可能非常高,特别是在很少发生的情况下

最后,统计分析系统正确运行所需的数据量是巨大的

[0004]相比之下,自动驾驶的模块化方法是将整体问题划分为几个子问题,其中感知和决策的差异化是重点

尽管这种模块化可能会给系统带来额外的复杂性,但它的优点是每个组件都可以单独开发和测试,即感知可以通过例如手动标记的真实数据来实现

此外,找出错误的根本原因对于开发旨在防止未来此类错误的系统至关重要

为此,具有可解释中间结果的模块化方法似乎必不可少

另一个,将问题结构化为精心研究的子任务的另一个好处是积累的技术和专业知识可以直接转移

例如来自机器人技术

计算机视觉和车辆动力学

[0005]负责检测场景中所有重要对象的感知是这种模块化自动驾驶系统的关键组成部分之一,因为该模块如果出现错误后果无法想象

[0006]到目前为止,我们已经看到有充分的理由将自动驾驶汽车的软件堆栈拆分为几个单独的模块

在这个整体架构中,感知系统负责识别场景中的所有相关对象,并将这些以及来自感观原始数据的所有其他相关信息提供给决策模块

[0007]这在实践中意味着,感知系统的确切任务没有明确定义,并且肯定会因方法不同而有差异

然而,可以识别几个典型的任务,包括定位

静态障碍物映射

道路映射

移动障碍物检测和跟踪

交通信号检测和识别

如果我们把定位放在一边,典型的任务可以用环境感知来概括,即识别场景中所有相关对象及其相关状态的任务,即在
3D
中的确切位置

速度等

识别对象的语义解释,尤其是关于它的类型,例如汽车或人,有助于预测近期的行为


义解释还可以包括用于意图识别的特征,例如通过骑车人的手势识别

行人的头部和身体旋转或更多

[0008]感知分为两个层次,分别介绍如下:
(1)
几何场景理解,包括识别物体的位置

大小

方向和速度;
(2)
语义场景理解,场景的解释,例如交通参与者的类型

交通灯状态

交通标志和监管基础设施,如车道

电线杆等

[0009]几何场景理解:对于几何级信息的识别,通常结合不同传感器的优势

[0010]激光雷达和雷达传感器用于许多不同的高级辅助驾驶系统和智能车辆

它们的主要优势在于可以直接和精确地测量深度信息,即到物体的距离

除了深度测量之外,雷达传感器还能够测量物体的相对速度,因此非常适合检测其他移动的交通参与者

另一方面,光探测和测距传感器在精确测量到物体的距离方面具有优势

可以通过随时间跟踪对象来获得速度估计

由于两者都是有源传感器,它们不受照明变化的影响,这使得它们在夜间特别有价值

此外,它们对雾或雪等天气条件具有很强的抵抗力

尽管最近开发了克服这个问题的方法,但激光雷达和雷达传感器的垂直和水平分辨率相对较低

请注意,智能车辆中经常使用额外的超声波传感器来感知近距离障碍物,但不太适合整体场景理解

[0011]基于相机的深度估计:自动驾驶汽车中通常可用的另一种传感器是摄像头

自动驾驶汽车中基于视觉的几何级感知的一个主要困难是获得深度或运动估计并不直接

然而,已经开发出克服这个缺点的方法

第一种选择是来自单目深度估计领域的方法,但其鲁棒性和精度相对较低

一个有前途的替代方案是立体视觉,它使用两个摄像头来获得深度估计,因此对物体
/
自我运动具有鲁棒性

这种立体相机设置已显示出良好的效果,并广泛用于研究和汽车系列项目

[0012]语义场景理解:到目前为止,我们专注于利用几何线索的感知,即物体距离

大小和运动

环境识别的另一个关键方面是语义,即在监管基础设施的情况下,特别是关于对象类型及其含义的信息

然而,与几何量相比,这些不能直接测量

相反,基于机器学习的方法,特别是深度神经网络已经成为今天的标准

激光雷达和雷达传感器都已用于提取有关对象类型的语义信息,例如汽车或人

[0013]与其他传感器相比,摄像头具有两个关键特性,这使得它们对于自动驾驶至关重要

首先,图像的空间分辨率很高,可以解释交通标志

标记等精细结构

此外,测量原理类似于人眼,即图像传感器收集环境光

这允许感知颜色和发出的光,例如通过红绿灯

因此,它特别适合识别为人类建造的物体

[0014本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于视觉和深度线索的自动驾驶场景检测方法,其特征在于:包括以下步骤:步骤1:基于
DNN
的融合级处理中使用
Stixel
方法,以实现利用像素级语义和深度信息的中级表示;步骤2:使用单相机和激光雷达传感器的组合,提供稀疏但准确的深度信息的深度估计,以处理步骤1中的深度信息,得到处理后的深度信息;步骤3:提供深度补全方法,将步骤2中的处理后的深度信息使用稀疏测量生成密集深度图,以便在整个图像中分布深度信息;步骤4:采用新颖的语义和边缘感知测地距离方法,利用可用的外观信息,从而能够尊重对象的边界;为步骤3的深度补全方法使用彩色图像作为指导,以便在整个图像中分布深度信息;步骤4利用像素级深度线索以及唯一的颜色信息,新颖的语义和边缘感知测地距离方法算法为一种用于深度补全的新能量公式,它近似于逐像素的
3D
平面估计,考虑了全局图像上下文,对异常值具有鲁棒性并进行了有效优化;扩展众所周知的测地线距离以利用概率像素级语义线索;步骤5:采用半马尔可夫条件随机场算法,半马尔可夫条件随机场算法使用高分辨率图像进行实时深度估计,以对上述的方法进行彻底的实验证明,并检查上述方法的设计选择

参数和属性;即使在语义类数量较多的情况下,
Stixel
推理也易于实时处理
。2.
根据权利要求1所述的基于视觉和深度线索的自动驾驶场景检测方法,其特征在于:所述步骤1中,基于
Stixel
方法的
DNN
融合级处理包括以下步骤:
Stixel
是一种通过深度

对象实例和语义属性对周围
3D
场景进行建模的表示;利用了由一种新颖的通用
CNN
架构,除了唯一的颜色信息之外,它还利用了来自其他模式的
GoogLeNet
扩展一个专门适应深度的分支作为补充输入线索信息;联合网络共同实施了中级融合,使网络能够利用已经在中级特征级别上的跨模式相互依赖性;在端到端训练中,使用
Cityscapes
数据集联合优化网络参数;评估是在两个不同的常见计算机视觉任务上进行的,常见计算机视觉任务即语义分割和对象检测;对于对象检测,从
Cityscapes
中的实例级别注释中提取对象级别的
groundtruth
,以训练强大的
SSD
对象检测器;在彻底的实验中,展示所提出的多模态
CNN
的有效性;
RGB GoogLeNet
和进一步的
RGB

D
基线都优于和通过高分辨率引导图像和
FCN
获得的边界线索和像素级语义类标签;为了保留深度边界和精细结构,将这些线索组合在测地距离测量中;完成任务是通过定义一个能量函数来完成的,该函数使用这个距离度量来允许对稀疏输入数据和微小结构进行准确的重建;此外,提出了一种有效的优化算法,该算法近似于局部平面参数的逐像素优化,但只需要求解一小部分变量;所提出的方法能够特别利用其在非常稀疏的深度测量或高分辨率目标下的优势的方法生成的深度和语义输入;表示与方法的实际选择无关;为了表示
3D
场景,首先观察到城市环境,特别是交通场景,不是任意组成的,是遵循特征模式,主要由人造物体组成;在
Stixel
模型中,利用这些先验知识,使用一组非常适合建模地面和物体表面的平面来表示周围环境;同时,表示是抽象的,因为它只使用很少的参数来近似精确的对象形状;假设相机大致垂直安装,即垂直对象垂直出现在图像中,进一步简化
Stixel
模型;这种直立安装位置产生一个消失点和相关的直立消失线,从而使垂直对象边界在图像中显示为垂直线;因此,交通场景中的垂直基础设施使用垂直对齐的矩形平面,这些矩形平面被命名为
Stixels
;通过使用薄的
Stixel
片段,重建任意表面;对于代表场景
中对象的这些片段中的每一个,将假设深度恒定,使
Stixel
特别适合用于典型的融合模块,如果使用水平方向而不是垂直方向的
Stixel
段,则此恒定深度假设将无法拟合;除了建模
3D
场景的基本元素外,通过软件将进一步的先验知识整合到引入的模型中约束;遵循典型城市场景布局的表示:物体站在地面上,天空出现在图像的上部,更远的物体出现在图像的更高位置;基于
Stixel
方法的
DNN
融合级处理,融合了颜色和深度信息,在抽象级别上将特征与联合网络融合在一起;深度分支可以在深度数据上进行预训练;最后,在汽车环境中对所提出的方法进行了对象检测和语义分割任务的仔细评估
。3.
根据权利要求1所述的基于视觉和深度线索的自动驾驶场景检测方法,其特征在于:所述步骤2的具体操作如下:使用单相机和激光雷达传感器的组合来估计每个像素的距离;开发一种完成算法,完成算法使用彩色图像将深度信息提升到全分辨率;一种新的能量公式以及一种有效的推理算法,推理算法使用一种新的语义和基于边缘的大地距离测量来定义考虑对象边缘的图像内邻域;这是即使只有少数激光雷达测量可以与该物体相关联,也可以获得甚至精细的结构,该场景由一组局部受限的平面表示,对几个比较数据集的详细实验证明了所提出方法的优势,并检查了它们的参数和特性
。4.
根据权利要求1所述的基于视觉和深度线索的自动驾驶场景检测方法,其特征在于:所述步骤3的具体操作如下:为了评估深度补全方法,需要具有像素级深度真值的数据集;由于通常难以获取这种三维参考数据,使用了三个不同的数据集,每个数据集都具有其独特的优势;首先,使用无噪声的稀疏输入数据对算法进行评估;使用
Middlebury 2014
立体数据集的稠密深度真值作为参考;参考数据的降采样版本作为输入;其次,使用两个真实世界的数据集,通过真实数据采集设置来挑战这种方法;最后的实验利用
KITTI
数据集在汽车环境中进行基准测试,使用
LIDAR
传感器生成的不规则稀疏输入;在这三种情景中,使用预训练的通用高效边缘检测器生成像素级边缘
。5.
根据权利要求1所述的基于视觉和深度线索的自动驾驶场景检测方法,其特征在于:所述步骤4的具体操作如下:步骤4的目标是在给定稀疏测量的情况下估算高分辨率图像中每个像素的深度值;为了对观察到的
...

【专利技术属性】
技术研发人员:闻娟侯维岩刘忠英翟鹏飞徐方园郭怀远
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1