基于深度学习的无监督端到端的驾驶环境感知方法技术

技术编号：24037594 阅读：18 留言：0更新日期：2020-05-07 02:22

本发明专利技术公开了一种基于深度学习的无监督端到端的驾驶环境感知方法，包括：利用双目相机进行图像采集，并通过预处理获得训练数据；利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割；利用三个网络的输出结果进行刚性配准，来优化位姿估计网络的输出；利用深度估计网络的输出，以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流，并与光流估计网络的输出进行流一致性检查，从而进行运动分割。上述方法采用无监督的端到端框架不需要真值深度、位姿和光流作为标签监督训练，并且能够获得具有绝对尺度的相机位姿和稠密的深度图估计，从而可以以较高的精度分割出动态物体。

An end-to-end unsupervised driving environment perception method based on deep learning

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习的无监督端到端的驾驶环境感知方法
本专利技术涉及智能驾驶
，尤其涉及一种基于深度学习的无监督端到端的驾驶环境感知方法。
技术介绍
从视频图像中学习三维场景几何结构、场景流以及机器人相对于刚性场景的运动是计算机视觉中的重要研究内容，并且已经在许多不同领域有着广泛应用，包括自动驾驶、机器人导航和视频分析等。然而，当前基于深度学习的环境感知方法都是监督型的学习框架，获取用于训练的真值标签是非常困难的。近年来，在利用卷积神经网络方法进行深度、光流和位姿的无监督学习方面，已经取得了许多进展。这些方法都有各自的优点和局限性。无监督的深度学习方法利用场景的几何结构并将问题分解为多个正交的问题，可以利用更多的时间图像帧或立体图像信息向解决方案中添加更多约束。一方面，当前基于深度学习的光流、深度与位姿估计方法假设整个场景是静态的，因此难以处理运动物体。另一方面，光流法原则上可以处理运动物体，但是在复杂结构区域和遮挡区域中存在困难。中国专利《利用深度学习对视频序列中单目视图深度估计优化方法》(公开号：CN108765479A)利用深度学习对视频序列中单目视图深度估计优化，但这种基于单目视觉的方法具有尺度不确定性，因此估计的深度尺度未知，不具有实际应用价值。中国专利《一种基于深度卷积网络的双目深度估计方法》(公开号：CN109598754A)利用双目图像来训练深层卷积神经网络来进行深度估计，但是训练过程中需要真值深度作为标签参与训练，然而在实际环境中获得真值深度是非常困难且昂贵的。中国专利《一种基...

【技术保护点】
1.一种基于深度学习的无监督端到端的驾驶环境感知方法，其特征在于，包括：/n利用双目相机进行图像采集，并通过预处理获得训练数据；/n利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割；/n训练完毕后，对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准，来优化位姿估计网络的输出；利用深度估计网络的输出，以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流，并与光流估计网络的输出进行流一致性检查，从而进行运动分割。/n

【技术特征摘要】
1.一种基于深度学习的无监督端到端的驾驶环境感知方法，其特征在于，包括：
利用双目相机进行图像采集，并通过预处理获得训练数据；
利用训练数据中两个连续的大小相同的立体图像对训练光流估计网络、位姿估计网络、深度估计网络以及运动分割；
训练完毕后，对于新输入的两个连续的大小相同的立体图像对利用三个网络的输出结果进行刚性配准，来优化位姿估计网络的输出；利用深度估计网络的输出，以及优化后的位姿估计网络的输出计算由摄像机运动引起的刚性流，并与光流估计网络的输出进行流一致性检查，从而进行运动分割。

2.根据权利要求1所述的一种基于深度学习的无监督端到端的驾驶环境感知方法，其特征在于，利用双目相机进行图像采集，并通过预处理获得训练数据包括：
首先，对双目相机采集到的原始图像进行缩放，并且相应的相机内参也同时进行缩放；
然后，通过数据增强方法，产生训练数据；
所述数据增强方法，包括使用如下一种或多种方式进行数据增强：
使用亮度因子γ对输入的单目图像进行随机校正；
按比例因子sx和sy沿X轴和Y轴对图像进行缩放，然后将图像随机裁剪为指定尺寸；
将图像随机旋转r度，并使用最近邻方法插值；
随机左右翻转以及随机时间顺序切换。

3.根据权利要求1所述的一种基于深度学习的无监督端到端的驾驶环境感知方法，其特征在于，所述利用训练数据中两个连续的大小相同的立体图像训练光流估计网络、位姿估计网络、深度估计网络以及运动分割包括：
首先，利用训练数据中连续的大小相同的立体图像对训练光流估计网络，再同时训练位姿估计网络和深度估计网络；
然后，利用训练数据中连续的大小相同的立体图像对同时训练光流估计网络、位姿估计网络、深度估计网络以及运动分割。

4.根据权利要求3所述的一种基于深度学习的无监督端到端的驾驶环境感知方法，其特征在于，
两个连续的大小相同的立体图像对记为L1、R1、L2与R2；其中，L1、R1对应的表示在t1时刻的左、右图像，L2、R2对应的表示t2时刻的左、右图像；
利用两个连续左图像L1与L2以及设计的光流损失函数训练光流估计网络，光流估计网络的输出为两个连续的大小相同的左图像L1与L2之间的光流
同时训练训练位姿估计网络和深度估计网络：
利用两个连续左图像L1与L2以及设计的刚性流损失函数训练位姿估计网络，位姿估计网络输出为两个连续左图像L1与L2以之间的相对相机位姿T12；利用两个连续的大小相同的立体图像对L1、R1、L2与R2以及立体损失训练深度估计网络，深度估计网络的输出为立体图像对之间的视差d，利用立体相机基线B和水平焦距fx，通过视差d计算绝对尺度深度D＝Bfx/d，将计算出的绝对尺度深度记为D1，2。

5.根据权利要求4所述的一种基于深度学习的无监督端到端的驾驶环境感知方法，其特征在于，
所述光流损失函数包括：遮挡感知重建损失项和平滑损失项

其中，ψ(.)表示遮挡感知重建损失函数，α表示调节系数，O1表示非遮挡区域，M1表示损失掩模，N为归一化系数；表示根据L1、L2之间的光流并结合L2重建的左图像，记为e表示自然对数，(i，j)表示像素位置，指沿图像x或者y方向的求导操作，其平方表示求二阶导，a指图像的x或y...

【专利技术属性】
技术研发人员：陈宗海，洪洋，王纪凯，戴德云，赵皓，包鹏，江建文，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽;34

全部详细技术资料下载我是这个专利的主人