基于深度学习的无监督端到端的驾驶环境感知方法技术

技术编号:24037594 阅读:18 留言:0更新日期:2020-05-07 02:22
本发明专利技术公开了一种基于深度学习的无监督端到端的驾驶环境感知方法,包括:利用双目相机进行图像采集,并通过预处理获得训练数据;利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割;利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割。上述方法采用无监督的端到端框架不需要真值深度、位姿和光流作为标签监督训练,并且能够获得具有绝对尺度的相机位姿和稠密的深度图估计,从而可以以较高的精度分割出动态物体。

An end-to-end unsupervised driving environment perception method based on deep learning

【技术实现步骤摘要】
基于深度学习的无监督端到端的驾驶环境感知方法
本专利技术涉及智能驾驶
,尤其涉及一种基于深度学习的无监督端到端的驾驶环境感知方法。
技术介绍
从视频图像中学习三维场景几何结构、场景流以及机器人相对于刚性场景的运动是计算机视觉中的重要研究内容,并且已经在许多不同领域有着广泛应用,包括自动驾驶、机器人导航和视频分析等。然而,当前基于深度学习的环境感知方法都是监督型的学习框架,获取用于训练的真值标签是非常困难的。近年来,在利用卷积神经网络方法进行深度、光流和位姿的无监督学习方面,已经取得了许多进展。这些方法都有各自的优点和局限性。无监督的深度学习方法利用场景的几何结构并将问题分解为多个正交的问题,可以利用更多的时间图像帧或立体图像信息向解决方案中添加更多约束。一方面,当前基于深度学习的光流、深度与位姿估计方法假设整个场景是静态的,因此难以处理运动物体。另一方面,光流法原则上可以处理运动物体,但是在复杂结构区域和遮挡区域中存在困难。中国专利《利用深度学习对视频序列中单目视图深度估计优化方法》(公开号:CN108765479A)利用深度学习对视频序列中单目视图深度估计优化,但这种基于单目视觉的方法具有尺度不确定性,因此估计的深度尺度未知,不具有实际应用价值。中国专利《一种基于深度卷积网络的双目深度估计方法》(公开号:CN109598754A)利用双目图像来训练深层卷积神经网络来进行深度估计,但是训练过程中需要真值深度作为标签参与训练,然而在实际环境中获得真值深度是非常困难且昂贵的。中国专利《一种基于无监督学习的单目视觉定位方法》(公开号:CN109472830A)利用无监督学习的方法进行单目视觉定位,但是单目视觉定位存在尺度不确定性和尺度漂移,定位精度差,且定位的尺度不确定性,在实际环境中没有工程价值。因此,目前基于深度学习的驾驶环境感知方法中依然存在的问题如下:1)使用单目图片序列训练的深度估计和位姿估计深度学习模型,受限于单目尺度不确定性及尺度漂移,所估计的深度及位姿尺度未知,不具有实际应用价值;2)当前基于深度学习的深度估计、位姿估计和光流估计方法需要真值监督训练,但是现实环境中真值数据获取非常困难且需要高昂的代价;3)实际驾驶环境中动态物体非常常见,当前基于深度学习的环境感知方法并没有考虑动态物体的影响,精度有待进一步提高。
技术实现思路
本专利技术的目的是提供一种基于深度学习的无监督端到端的驾驶环境感知方法,采用无监督的端到端框架不需要真值深度、位姿和光流作为标签监督训练,并且能够获得具有绝对尺度的相机位姿和稠密的深度图估计,从而可以以较高的精度分割出动态物体。本专利技术的目的是通过以下技术方案实现的:一种基于深度学习的无监督端到端的驾驶环境感知方法,包括:利用双目相机进行图像采集,并通过预处理获得训练数据;利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割;训练完毕后,对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割。由上述本专利技术提供的技术方案可以看出,训练数据仅需要双目RGB图像,数据获取非常简单;采用统一的框架,能够同时学习光流、深度、位姿和运动分割,模型的训练过程简单直接,需要调整的参数非常少、场景迁移能力强;模型适应性好,能够以无监督端到端的方式学习光流及具有绝对尺度的深度和位姿等环境的几何信息,由于估计的光流、位姿和深度精度较高,可以以较高的精度分割出动态物体。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于深度学习的无监督端到端的驾驶环境感知方法的流程图;图2为本专利技术实施例提供的一种基于深度学习的无监督端到端的驾驶环境感知方法的框架图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于深度学习的无监督端到端的驾驶环境感知方法,如图1~图2所示,分别为该方法的流程图与框架图。该方法主要包括:1、利用双目相机进行图像采集,并通过预处理获得训练数据。本专利技术实施例中,应用于驾驶环境感知,因而双目相机安装在车辆上,用于采集环境图像。在输入网络训练之前,为了减少训练时间并降低计算代价和硬件消耗,对双目相机采集到的原始图像进行缩放,并且相应的相机内参也同时进行缩放。此外,还应用数据增强方法来提高模型泛化性能并减轻过拟合,通过上述方式产生训练数据,每次训练提取两个连续的大小相同的立体图像对输入至网络进行训练。两个连续的大小相同的立体图像对记为L1、R1、L2与R2;其中,L1、R1对应的表示在t1时刻的左、右图像,L2、R2对应的表示t2时刻的左、右图像,其宽、高记为W、H。本专利技术实施例中,数据增强方法,包括使用如下一个或多个方式进行数据增强:使用亮度因子y对输入的单目图像进行随机校正;按比例因子sx和sy沿X轴和Y轴对图像进行缩放,然后将图像随机裁剪为指定尺寸;将图像随机旋转r度,并使用最近邻方法插值;随机左右翻转以及随机时间顺序切换(交换t1和t2)。示例性的,可采用如下设置γ∈[0.7,1.3],sx∈[1.0,1.2],sy∈[1.0,1.2],r∈[-5,5];指定尺寸可以设为:832×256。2、利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割。本步骤中,所述利用训练数据中两个连续的大小相同的立体图像训练光流估计网络、位姿估计网络、深度估计网络以及运动分割主要分为如下两个阶段:第一阶段:利用训练数据中连续的大小相同的立体图像对训练光流估计网络,再同时训练位姿估计网络和深度估计网络。在本阶段中,首先,利用两个连续左图像L1与L2以及设计的光流损失函数训练光流估计网络,光流估计网络的输出为两个连续的大小相同的左图像L1与L2之间的光流其维度和输入图像相同。所述光流损失函数包括:遮挡感知重建损失项和平滑损失项是基于结构相似性(structuralsimilarity,SSIM)的损失和非封闭区域上的绝对光度差损失之间的加权平均值,是移动区域上光流的边缘加权二阶导数的平均绝对值,将在一致性损本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,包括:/n利用双目相机进行图像采集,并通过预处理获得训练数据;/n利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割;/n训练完毕后,对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割。/n

【技术特征摘要】
1.一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,包括:
利用双目相机进行图像采集,并通过预处理获得训练数据;
利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割;
训练完毕后,对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准,来优化位姿估计网络的输出;利用深度估计网络的输出,以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流,并与光流估计网络的输出进行流一致性检查,从而进行运动分割。


2.根据权利要求1所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,利用双目相机进行图像采集,并通过预处理获得训练数据包括:
首先,对双目相机采集到的原始图像进行缩放,并且相应的相机内参也同时进行缩放;
然后,通过数据增强方法,产生训练数据;
所述数据增强方法,包括使用如下一种或多种方式进行数据增强:
使用亮度因子γ对输入的单目图像进行随机校正;
按比例因子sx和sy沿X轴和Y轴对图像进行缩放,然后将图像随机裁剪为指定尺寸;
将图像随机旋转r度,并使用最近邻方法插值;
随机左右翻转以及随机时间顺序切换。


3.根据权利要求1所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,所述利用训练数据中两个连续的大小相同的立体图像训练光流估计网络、位姿估计网络、深度估计网络以及运动分割包括:
首先,利用训练数据中连续的大小相同的立体图像对训练光流估计网络,再同时训练位姿估计网络和深度估计网络;
然后,利用训练数据中连续的大小相同的立体图像对同时训练光流估计网络、位姿估计网络、深度估计网络以及运动分割。


4.根据权利要求3所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,
两个连续的大小相同的立体图像对记为L1、R1、L2与R2;其中,L1、R1对应的表示在t1时刻的左、右图像,L2、R2对应的表示t2时刻的左、右图像;
利用两个连续左图像L1与L2以及设计的光流损失函数训练光流估计网络,光流估计网络的输出为两个连续的大小相同的左图像L1与L2之间的光流
同时训练训练位姿估计网络和深度估计网络:
利用两个连续左图像L1与L2以及设计的刚性流损失函数训练位姿估计网络,位姿估计网络输出为两个连续左图像L1与L2以之间的相对相机位姿T12;利用两个连续的大小相同的立体图像对L1、R1、L2与R2以及立体损失训练深度估计网络,深度估计网络的输出为立体图像对之间的视差d,利用立体相机基线B和水平焦距fx,通过视差d计算绝对尺度深度D=Bfx/d,将计算出的绝对尺度深度记为D1,2。


5.根据权利要求4所述的一种基于深度学习的无监督端到端的驾驶环境感知方法,其特征在于,
所述光流损失函数包括:遮挡感知重建损失项和平滑损失项



其中,ψ(.)表示遮挡感知重建损失函数,α表示调节系数,O1表示非遮挡区域,M1表示损失掩模,N为归一化系数;表示根据L1、L2之间的光流并结合L2重建的左图像,记为e表示自然对数,(i,j)表示像素位置,指沿图像x或者y方向的求导操作,其平方表示求二阶导,a指图像的x或y...

【专利技术属性】
技术研发人员:陈宗海洪洋王纪凯戴德云赵皓包鹏江建文
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1