估计图像的深度和图像之间的相对摄像头位姿制造技术

技术编号:34549247 阅读:29 留言:0更新日期:2022-08-17 12:32
一种计算机实现方法,用于估计视频序列中图像的深度和图像之间的相对摄像头位姿,包括:对源图像执行反向扭曲,以生成第一重建目标图像;基于目标图像和所述第一重建目标图像,计算初始图像重建损失。对源深度图执行正向扭曲,以生成第二重建目标深度图,并且基于所述第二重建目标深度图生成遮挡掩模。所述方法还包括基于所述生成的遮挡掩模,对所述初始图像重建损失进行正则化。因此,通过正向扭曲和反向扭曲的组合,提供了一种图像重建的遮挡感知方法,所述方法识别和掩蔽遮挡区域,并对所述图像重建损失进行正则化。所述图像重建损失进行正则化。所述图像重建损失进行正则化。

【技术实现步骤摘要】
【国外来华专利技术】估计图像的深度和图像之间的相对摄像头位姿


[0001]本专利技术大体涉及计算机视觉和机器学习领域,更具体地,涉及一种用于估计视频序列中图像的深度和图像之间的相对摄像头位姿的计算机实现方法。

技术介绍

[0002]近年来,基于深度学习的方法已实现增强深度估计。此类基于深度学习的方法包括自监督学习方法,该方法使得传统卷积神经网络(convolutional neural network,CNN)能够在没有任何用于深度估计的地面真值的情况下进行训练。此外,基于深度学习的方法可以用于从单目RGB视频进行自监督深度和位姿估计,而无需任何地面真值注释。通常,通过正确的深度和自运动估计,可以将来自一个视图(如源图像)的RGB图像(彩色图像)反向扭曲到另一个视图(如目标图像),使得扭曲后的图像和原始目标图像应当相同。然而,由于遮挡物、移动对象等各种原因,在实践中无法实现这一点。换言之,由于不同的影响(例如,遮挡物),重建图像并不完美。目前,这一遮挡问题是通过使用CNN学习图像中的遮挡区域或者从多个视点计算图像重建损失,然后取所有视点的最小像素误差(称为最小重投影误差)来解决的。然而,学习遮挡区域需要学习许多额外的参数,这使得该过程在计算上复杂、低效且容易出错。最小重投影误差没有明确地考虑几何约束,并且由于反射对象表面和其它图像属性等不同影响而进一步不利,这可能会导致错误的最小重投影误差,而实际上并未发生遮挡。
[0003]因此,根据上述讨论,在神经网络的训练中,需要克服与遮挡区域的正则化相关联的上述缺点。
专利技术内
[0004]本专利技术旨在提供一种用于估计视频序列中图像的深度和图像之间的相对摄像头位姿的计算机实现方法。本专利技术旨在为图像重建方面目前存在的遮挡问题提供一种方案,所述问题影响图像重建损失和神经网络的进一步训练。本专利技术的目的在于提供一种方案,所述方案至少部分地克服现有技术中遇到的问题,并通过正向扭曲和反向扭曲的组合提供一种图像重建的遮挡感知方法,所述方法掩蔽遮挡区域并对所述图像重建损失进行正则化。
[0005]本专利技术的目的是通过所附独立权利要求中提供的方案实现的。本专利技术的有利实现方式在从属权利要求中进一步定义。
[0006]在一个方面,本专利技术提供了一种用于估计视频序列中图像的深度和图像之间的相对摄像头位姿的计算机实现方法。所述方法包括:估计两个或多个图像的时间序列中的目标图像的目标深度图。所述方法还包括:估计所述时间序列中从所述目标图像到与所述目标图像相邻的源图像的位姿变换。所述方法还包括:基于所述相邻图像之间的所述位姿变换和所述目标深度图,对所述源图像执行反向扭曲,以生成第一重建目标图像。所述方法还包括:基于所述目标图像和所述第一重建目标图像,计算初始图像重建损失。所述方法还包
括:估计所述源图像的源深度图。所述方法还包括:基于所述位姿变换和所述源深度图,对所述源深度图执行正向扭曲,以生成第二重建目标深度图。所述方法还包括:基于所述第二重建目标深度图,生成遮挡掩模,从而指示所述目标图像的一个或多个遮挡区域。所述方法还包括:基于所述生成的遮挡掩模,对所述初始图像重建损失进行正则化。
[0007]本专利技术所述的方法提供了一种图像重建损失的遮挡感知正则化。除通过传统方法对所述源图像仅执行反向扭曲之外,所述方法还基于所述位姿变换和所述源深度图执行正向扭曲。因此,本方法可以识别由于前景对象的遮挡将发生(或发生)图像重建违规的图像区域。此外,这些识别的图像区域用于掩蔽所述图像重建损失并对其进行正则化。因此,本方法改善了所述图像重建损失,并且便于训练用于深度和自运动估计的神经网络。因此,可实现更好的深度和自运动估计结果。
[0008]在一种实现方式中,估计所述目标深度图和所述源深度图使用第一神经网络。训练后的所述第一神经网络用于准确且连续地估计深度,而无需人工干预或需要极少的人工干预。使用所述方法可实现更好的深度和自运动估计结果。
[0009]在另一种实现方式中,所述方法还包括:基于所述正则化的图像重建损失训练所述第一神经网络。
[0010]与传统损失公式相比,基于所述正则化的图像重建损失的所述训练的第一神经网络可提供更好的深度估计结果。
[0011]在另一种实现方式中,估计所述位姿变换使用第二神经网络。
[0012]训练后的所述第二神经网络用于准确且连续地估计位姿变换,而无需人工干预或需要极少的人工干预。
[0013]在另一种实现方式中,所述方法还包括:基于所述正则化的图像重建损失训练所述第二神经网络。
[0014]与传统损失公式相比,基于所述正则化的图像重建损失的所述训练的第二神经网络可提供更好的自运动(即,位姿)估计结果。
[0015]所述正向扭曲使得能够基于所述第二重建目标深度图生成遮挡掩模。所述遮挡掩模指示所述目标图像的一个或多个遮挡区域。为了计算所述图像重建损失,进一步排除这些遮挡区域。因此,对所述初始图像重建损失正则化。
[0016]在另一种实现方式中,所述反向扭曲包括:基于所述目标深度图和一组摄像头内参数,将所述目标图像的多个目标像素位置投影到3D空间中。所述反向扭曲还包括:基于所述位姿变换,将所述投影像素位置的位置变换为所述源图像。所述反向扭曲还包括:将所述源图像的像素值映射到所述重建目标图像的像素位置,并基于所述映射的像素值生成所述第一重建目标图像。
[0017]所述反向扭曲用于生成所述第一重建目标图像。当与所述第二重建目标深度图一起使用时,所述第一重建目标图像能够识别所述遮挡区域,然后在计算所述图像重建损失时排除所述遮挡区域。因此,能够实现正则化的图像重建损失。
[0018]在另一种实现方式中,将所述源图像的所述像素值映射到所述目标像素位置包括:如果变换的目标像素位置未落入所述源图像中的像素位置,则使用来自所述源图像的相邻像素位置的像素值的双线性采样来确定像素值。
[0019]双线性采样执行一对多映射,使得能够映射所述目标图像中未落入所述源图像中
的精确像素位置的整数像素位置。一对多映射使得能够根据所述源图像的相邻像素位置确定所述像素值。
[0020]在另一种实现方式中,所述正向扭曲包括:基于所述源深度图和一组摄像头内参数,将所述源图像的多个深度值投影到3D空间中。所述正向扭曲还包括:通过反转从所述目标图像到所述源图像的所述位姿变换,生成从所述源图像到所述目标图像的位姿变换。所述正向扭曲还包括:基于从所述源图像到所述目标图像的所述位姿变换,对所述投影深度值的位置进行变换。所述正向扭曲还包括:基于所述一组摄像头内参数,将所述变换的深度值映射到所述第二重建目标深度图。
[0021]所述正向扭曲用于生成所述第二重建目标深度图。当与所述第一重建目标图像一起使用时,所述第二重建目标深度图能够识别所述遮挡区域,然后在计算所述图像重建损失时排除所述遮挡区域。因此,能够实现正则化的图像重建损失。
[0022]在另一种实现方式中,将所述变换的深度值映射到所述第二重建目标深度图包括:如果将本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现方法(100),用于估计视频序列(208)中图像的深度和图像之间的相对摄像头位姿,其特征在于,包括:估计两个或多个图像的时间序列中的目标图像的目标深度图;估计所述时间序列中从所述目标图像到与所述目标图像相邻的源图像的位姿变换;基于所述位姿变换和所述目标深度图,对所述源图像执行反向扭曲,以生成第一重建目标图像;基于所述目标图像和所述第一重建目标图像,计算初始图像重建损失;估计所述源图像的源深度图;基于所述位姿变换和所述源深度图,对所述源深度图执行正向扭曲,以生成第二重建目标深度图;基于所述第二重建目标深度图,生成遮挡掩模,所述遮挡掩模指示所述目标图像的一个或多个遮挡区域;基于所述遮挡掩模,对所述初始图像重建损失进行正则化。2.根据权利要求1所述的方法(100),其特征在于,使用第一神经网络(218A)估计所述目标深度图和所述源深度图。3.根据权利要求2所述的方法(100),其特征在于,还包括基于正则化的所述图像重建损失训练所述第一神经网络(218A)。4.根据上述权利要求中任一项所述的方法(100),其特征在于,使用第二神经网络(218B)估计所述位姿变换。5.根据权利要求4所述的方法(100),其特征在于,还包括基于正则化的所述图像重建损失训练所述第二神经网络(218B)。6.根据上述权利要求中任一项所述的方法(100),其特征在于,所述反向扭曲包括:基于所述目标深度图和一组摄像头内参数,将所述目标图像的多个目标像素位置投影到3D空间中;基于所述位姿变换,将投...

【专利技术属性】
技术研发人员:帕特里克
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1