使用深度提示对深度估计模型的自我监督训练制造技术

技术编号:28462023 阅读:68 留言:0更新日期:2021-05-15 21:27
公开了一种用于使用深度提示训练深度估计模型的方法。针对每个图像对:针对第一图像,通过深度估计模型确定深度预测以及获取深度提示;将第二图像投影到第一图像上,以基于深度预测生成合成帧,以及再次基于深度提示生成提示合成帧;利用合成帧计算一次损失;利用提示合成帧计算提示损失;并且基于每像素确定,针对图像对计算总体损失,其中如果提示损失小于一次损失,则总体损失包括一次损失和在深度预测与深度提示之间的监督深度损失。通过使图像对的总体损失最小化来训练深度估计模型。像对的总体损失最小化来训练深度估计模型。像对的总体损失最小化来训练深度估计模型。

【技术实现步骤摘要】
【国外来华专利技术】使用深度提示对深度估计模型的自我监督训练
[0001]相关申请的交叉引用
[0002]本申请要求于2019年5月2日提交的美国临时申请No.62/842,531的权益,该临时申请的全部内容通过引用合并于此。


[0003]所描述的主题总体上涉及从单色输入图像估计深度图,并且尤其涉及训练机器学习模型以便估计使用由另一模型提供的深度提示而训练的深度图。

技术介绍

[0004]深度感测在导航和场景理解这两方面都有应用。很多方法使用已训练模型或网络来从单色输入图像确定深度图。存在使用不同种类的训练数据来训练深度估计系统的一些方法。可以使用检测和测距系统来训练深度估计系统,以针对与由相机获取的与同一场景的图像配对的环境中的对象建立地面真值深度(即,无线电检测和测距(RADAR)、光检测和测距(LIDAR)等)。尽管检测和测距系统可以提供对象深度的地面真值,但是不断利用检测和测距系统来感测很多不同环境的深度可能是一种在时间和资源方面昂贵的尝试。此外,检测和测距系统不能确定具有其材料性质可以使得检测和测距系统无法检测到它们的一些对象(例如,反射本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:接收场景的图像;将所述图像输入到深度估计模型中,所述深度估计模型由过程训练,所述过程包括:访问包括多个图像对的训练图像数据,每个图像对包括第一图像和第二图像;针对每个图像对:由所述深度估计模型生成针对所述第一图像的像素的深度预测值;获取针对所述第一图像的所述像素的深度提示值;基于针对所述第一图像的所述像素的所述深度预测值,将所述第二图像投影到所述第一图像上,以生成模型合成帧;基于针对所述第一图像的所述像素的所述深度提示值,将所述第二图像投影到所述第一图像上,以生成提示合成帧;基于所述模型合成帧的所述像素与所述第一图像的所述像素的比较,计算针对所述深度预测值的一次损失值;基于所述提示合成帧的所述像素与所述第一图像的所述像素的比较,计算针对所述深度提示值的提示损失值;以及计算针对所述图像对的总体损失,其中在所述第一图像中的给定像素对所述总体损失的贡献是基于所述一次损失值较小还是所述提示损失值较小来确定的,其中所述第一图像中具有小于一次损失值的提示损失值的第一像素的所述贡献包括所述一次损失值以及基于针对所述第一像素的深度预测值和深度提示值的监督深度损失值;基于所述图像对的所述总体损失,调节所述深度估计模型的参数;以及由所述深度估计模型生成与所述场景的所述图像相对应的所述场景的深度图。2.根据权利要求1所述的方法,其中每个图像对是由一对相机捕获的真实立体图像对。3.根据权利要求1所述的方法,其中每个图像对是伪立体图像对,其中所述第一图像和所述第二图像是由单个相机捕获的时间上不同的帧。4.根据权利要求1所述的方法,其中将所述第二图像投影到每个图像对中的所述第一图像上还基于在所述第一图像与所述第二图像之间的姿势。5.根据权利要求1所述的方法,其中将所述第二图像投影到所述第一图像上还基于针对所述第一图像的第一相机内参数集合以及针对所述第二图像的第二相机内参数集合。6.根据权利要求1所述的方法,其中根据深度预测值的在像素处的所述一次损失值基于在所述模型合成帧的所述像素与所述第一图像的所述像素之间的差分,并且其中根据深度提示值的在所述像素处的所述提示损失值基于在所述提示合成帧的所述像素与在所述第一图像的所述像素之间的差分。7.根据权利要求1所述的方法,其中如果所述一次损失值在给定像素处小于或等于所述提示损失值,则所述给定像素对所述总体损失的所述贡献是所述给定像素的所述一次损失值;以及其中如果所述提示损失值在所述给定像素处小于所述一次损失值,则所述给定像素对所述总体损失的所述贡献是所述给定像素的所述一次损失值与在所述给定像素处的深度预测值与深度提示值之间的差分的总和。8.根据权利要求1所述的方法,其中所述深度提示值是由立体深度估计模型生成的,所
述立体深度估计模型被配置为输入所述图像对以及基于所述图像对输出所述深度提示值。9.根据权利要求1所述的方法,其中所述深度提示值是由同时定位和绘图(SLAM)模块基于所述图像对生成的。10.一种用于训练深度估计模型的计算机实现的方法,包括:访问包括多个图像对的训练图像数据,每个图像对包括第一图像和第二图像;针对每个图像对:由所述深度估计模型生成针对所述第一图像的像素的深度预测值;获取针对所述第一图像的所述像素的深度提示值;基于针对所述第一图像的所述像素的所述深度预测值,将所述第二图像投影到所述第一图像上,以生成模型合成帧;基于针对所述第一图像的所述像素的所述深度提示值,将所述第二图像投影到所述第一图像上,以生成提示合成帧;基于所述模型合成帧的所述像素与所述第一图像的所述像素的比较,计算针对所述深度预测值的一次损失值;基于所述提示合成帧的所述像素与所述第一图像的所述像素的比较,计算针对所述深度提示值的提示损失值;以及计算针对所述图像对的总体损失,在所述第一图像中的给定像素对所述总体损失的贡献是基于所述一...

【专利技术属性】
技术研发人员:J
申请(专利权)人:奈安蒂克公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1