用于改进确定深度图、相对姿势或语义分割的过程的设备和方法技术

技术编号:34287819 阅读:56 留言:0更新日期:2022-07-27 08:44
本发明专利技术涉及先进驾驶辅助系统(advanced driver assistance system,ADAS)、计算机视觉和机器学习(machine learning,ML)领域。本发明专利技术提供了一种基于ML的方法,用于根据合成图像(根据真实图像或虚拟图像生成)训练神经网络,以改进确定深度图、相对姿势或语义分割的过程。因此,本发明专利技术提供了一种用于确定深度图(101)、相对姿势(102)或语义分割(103)的设备(100)。所述设备(100)包括:神经网络(104),用于在推理阶段根据输入图像(105)确定所述深度图(101)、所述相对姿势(102)或所述语义分割(103);生成器(106),用于在训练阶段根据真实图像(108)或虚拟图像(109)并根据损失函数(110)生成合成图像(107);根据所述合成图像(107)训练所述神经网络(104);其中,所述损失函数(110)包括语义边缘函数(111)。函数(110)包括语义边缘函数(111)。函数(110)包括语义边缘函数(111)。

【技术实现步骤摘要】
【国外来华专利技术】用于改进确定深度图、相对姿势或语义分割的过程的设备和方法


[0001]本专利技术涉及先进驾驶辅助系统(advanced driver assistance system,ADAS)、计算机视觉和机器学习(machine learning,ML)领域。本专利技术提供了一种基于ML的方法,用于根据合成图像(根据真实图像或虚拟图像生成)训练神经网络,以改进确定深度图、相对姿势或语义分割(例如,可用于训练自动驾驶车辆的自动驾驶仪)的过程。此外,本专利技术涉及域适应,例如,通过在虚拟图像上训练神经网络和在真实图像上测试来解决计算机视觉问题。

技术介绍

[0002]根据传感器输入进行相对姿势、深度图或语义分割的估计是机器人、ADAS或自动驾驶系统的重要任务。例如,用于进行所述估计的传感器输入来自视觉传感器(例如由数码相机拍摄的输入图像)。根据输入图像估计的信息(深度图、语义分割或相对姿势)可(与输入图像一起)用于机器人、ADAS或自动驾驶系统的进一步训练。例如,可以根据输入图像并根据对应的相对姿势、深度图或语义分割训练车辆的自动驾驶仪。
[0003]随着神经网络的快速发展,为了解决计算机视觉问题,立体匹配或自监督深度学习方法等估计技术取得了进步,但需要大量真实高质量的立体图像或真实序列图像作为估计训练的输入图像。即使真实立体图像或真实序列图像很容易生成,但也很难创建对应于所述真实图像的准确深度图、相对姿势或语义分割(可用作进一步训练的地面真值)。
[0004]而创建具有关于深度图、相对姿势或语义分割的对应的准确信息的虚拟图像(不是相机拍摄的,而是计算机生成的)是可行的。通过这种方式,可以创建大量的训练数据(例如用于训练机器人、ADAS或自动驾驶系统)。
[0005]但是,例如,由于虚拟图像的图像纹理或色彩强度不如真实图像中的好,所以可以发现虚拟图像与真实图像之间存在域间隙。如果执行估计的神经网络仅根据虚拟图像训练,则该域间隙还降低了基于输入图像的深度图、相对姿势估计或语义分割的估计质量。
[0006]解决这个问题的传统方法是使用深度神经网络学习域不变特征或域不变表示,或者推动两个域分布彼此接近。但是,这些方法的结果不那么有效。也就是说,传统方法并不能有效地减小虚拟图像与真实图像之间的域间隙。

技术实现思路

[0007]鉴于上述问题,本专利技术的实施例的目的是改进不同图像域之间(例如虚拟图像与真实图像之间)的域适应。
[0008]该目的或其它目的可以通过所附独立权利要求中描述的本专利技术的实施例实现。本专利技术的实施例的有利实现方式在从属权利要求中进一步定义。
[0009]本专利技术的第一方面提供了一种用于确定深度图、相对姿势或语义分割的设备,其中,该设备包括:神经网络,用于在推理阶段根据输入图像确定深度图、相对姿势或语义分割;生成器,用于在训练阶段根据真实图像或虚拟图像并根据损失函数生成合成图像,并根
据合成图像训练神经网络,其中,损失函数包括语义边缘函数。
[0010]这确保了可以有效地减小虚拟图像与真实图像之间的域间隙。因此,可以避免对创建用于训练神经网络的真实图像的依赖,并且可以使用虚拟图像,对于虚拟图像,可以自动创建标签(例如指示分割、姿势或深度)。具体地,语义边缘函数确保了有效地减小域间隙。
[0011]具体地,输入图像可以是输入到设备的真实图像或虚拟图像。具体地,真实图像或虚拟图像被输入到设备,用于生成用于车辆自动驾驶仪的训练数据。
[0012]具体地,真实图像是在真实环境中用立体相机获取的二维图像(例如,RGB或色度

亮度图像)。例如,真实图像根据以下至少一项获取:KITTI、CITYSCAPES、AEV数据集。
[0013]具体地,虚拟图像是在Carla等虚拟环境中用立体相机获取的二维图像(例如,RGB图像或色度

亮度图像)或照片般逼真的数据集。
[0014]具体地,合成图像是生成对抗网络(generative adversarial network,GAN)根据真实图像或虚拟图像的生成的二维图像(例如RGB图像或色度

亮度图像)。
[0015]具体地,深度图是2D图像或矩阵,其中,每个像素或元素描述场景中相对于相机的对应3D点的深度。具体地,场景是相机捕获的真实世界的预定义感兴趣区域。
[0016]具体地,场景中的3D点投影到立体相机图像对(left,right)的x坐标差根据以下公式计算:I_left(x+d)=I_right(x),其中,d是视差。
[0017]具体地,视差图是2D图像或矩阵,其中,每个像素或元素描述了该像素或元素的视差。
[0018]具体地,相对姿势是包括3D位置坐标(例如x、y、z)和用于车辆定向(例如偏航、俯仰、侧倾)的3个角度的6D矢量。
[0019]具体地,语义分割包括对输入图像的每个像素进行分类,用于描绘对象的类型(例如:汽车、植被、建筑、天空、道路中的至少一个)。
[0020]具体地,语义边缘函数考虑真实图像或虚拟图像中的至少一个边缘。具体地,边缘包括图像中对象的边界,其中,边界包括显著的对比度变化。
[0021]在第一方面的一种实现方式中,语义边缘函数用于维护合成图像中的语义梯度信息和/或边缘信息。
[0022]这确保了根据合成图像中的语义梯度信息和/或边缘信息减小真实图像与合成图像之间的域间隙。
[0023]在第一方面的另一种实现方式中,该设备还包括第一鉴别器和第二鉴别器,其中,生成器还用于在训练阶段将合成图像提供给第一鉴别器或第二鉴别器,以训练神经网络。
[0024]这确保了可以提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。
[0025]具体地,纹理是图像的一个区域,描绘了色彩强度显著变化的内容。
[0026]在第一方面的另一种实现方式中,生成器还用于在训练阶段根据提供了合成图像的鉴别器的确定结果训练神经网络。
[0027]这确保了可以进一步提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。
[0028]在第一方面的另一种实现方式中,生成器还用于在训练阶段将合成图像随机提供
给第一鉴别器或第二鉴别器。
[0029]这确保了可以进一步提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。
[0030]在第一方面的另一种实现方式中,第一鉴别器还用于在训练阶段确定生成器根据虚拟图像生成的合成图像是虚假图像,并确定虚拟图像是原始图像;第二鉴别器还用于在训练阶段确定生成器根据真实图像生成的合成图像是虚假图像,并确定真实图像是原始图像。
[0031]这确保了可以进一步提高合成图像中的纹理或色彩强度,并且可以减小合成图像与真实图像之间的域间隙。
[0032]在第一方面的另一种实现方式中,该设备还用于根据合成图像训练神经网络,用于确定以下至少一项:深度本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于确定深度图(101)、相对姿势(102)或语义分割(103)的设备(100),其特征在于,所述设备(100)包括:

神经网络(104),用于在推理阶段根据输入图像(105)确定所述深度图(101)、所述相对姿势(102)或所述语义分割(103);

生成器(106),用于在训练阶段:根据真实图像(108)或虚拟图像(109)并根据损失函数(110)生成合成图像(107);根据所述合成图像(107)训练所述神经网络(104);其中,所述损失函数(110)包括语义边缘函数(111)。2.根据权利要求1所述的设备(100),其特征在于,所述语义边缘函数(111)用于维护所述合成图像(107)中的语义梯度信息和/或边缘信息。3.根据权利要求1或2所述的设备(100),其特征在于,还包括第一鉴别器(201)和第二鉴别器(202),所述生成器(106)还用于在所述训练阶段将所述合成图像(107)提供给所述第一鉴别器(201)或所述第二鉴别器(202),以训练所述神经网络(104)。4.根据权利要求3所述的设备(100),其特征在于,所述生成器(106)还用于,在所述训练阶段根据提供了所述合成图像(107)的所述鉴别器(201,202)的确定结果,训练所述神经网络(104)。5.根据权利要求3或4所述的设备(100),其特征在于,所述生成器(106)还用于在所述训练阶段将所述合成图像(107)随机提供给所述第一鉴别器(201)或所述第二鉴别器(202)。6.根据权利要求4或5所述的设备(100),其特征在于,所述第一鉴别器(201)还用于在所述训练阶段确定所述生成器(106)根据虚拟图像(109)生成的合成图像(107)是虚假图像,并确定所述虚拟图像(109)是原始图像;其中,所述第二鉴别器(202)还用于在所述训练阶段确定所述生成器(106)根据真实图像(108)生成的合成图像(107)是虚假图像,并确定所述真实图像(108)是原始图像。7.根据上述权利要求中任一项所述的设备(100),其特征在于,还用于根据所述合成图像(107)训练所述神经网络(104),以用于确定以下至少一项:深度图(101)...

【专利技术属性】
技术研发人员:阿基尔
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1