场景深度和相机运动预测方法及装置、电子设备和介质制造方法及图纸

技术编号:31510634 阅读:9 留言:0更新日期:2021-12-22 23:48
本公开涉及一种场景深度和相机运动预测方法及装置、电子设备和介质,所述方法包括:获取t时刻的目标图像帧;通过场景深度预测网络利用t

【技术实现步骤摘要】
场景深度和相机运动预测方法及装置、电子设备和介质
[0001]本申请是在2020年04月28日提交中国专利局、申请号为202010348872.2、申请名称为“场景深度和相机运动预测方法及装置、电子设备和介质”的中国专利申请的分案申请。


[0002]本公开涉及计算机
,尤其涉及一种场景深度和相机运动预测方法及装置、电子设备和介质。

技术介绍

[0003]利用单目图像采集设备(例如,单目相机)采集的图像作为输入来恢复场景深度以及相机运动是计算机视觉领域近二十年一个活跃而重要的研究方向,广泛应用于增强现实、无人驾驶以及移动机器人定位导航等众多领域。有鉴于此,如何提高场景深度和相机运动的预测精度成为亟待解决的问题。

技术实现思路

[0004]本公开提出了一种场景深度和相机运动预测方法及装置、电子设备和介质的技术方案。
[0005]根据本公开的一方面,提供了一种场景深度预测方法,包括:获取t时刻的目标图像帧;通过场景深度预测网络利用t

1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测,确定所述目标图像帧对应的预测深度图,其中,所述第一隐状态信息包括与场景深度相关的特征信息,所述场景深度预测网络是基于相机运动预测网络辅助训练得到的。
[0006]在一种可能的实现方式中,所述通过场景深度预测网络利用t

1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测,确定所述目标图像帧对应的预测深度图,包括:对所述目标图像帧进行特征提取,确定所述目标图像帧对应的第一特征图,其中,所述第一特征图为与场景深度相关的特征图;根据所述第一特征图和t

1时刻的所述第一隐状态信息,确定t时刻的所述第一隐状态信息;根据t时刻的所述第一隐状态信息,确定所述预测深度图。
[0007]在一种可能的实现方式中,t

1时刻的所述第一隐状态信息包括t

1时刻的不同尺度下的所述第一隐状态信息;所述对所述目标图像帧进行特征提取,确定所述目标图像帧对应的第一特征图,包括:对所述目标图像帧进行多尺度下采样,确定所述目标图像帧对应的不同尺度下的所述第一特征图;所述根据所述第一特征图和t

1时刻的所述第一隐状态信息,确定t时刻的所述第一隐状态信息,包括:针对任一尺度,根据该尺度下的所述第一特征图和t

1时刻的该尺度下的所述第一隐状态信息,确定t时刻的该尺度下的所述第一隐状态信息;所述根据t时刻的所述第一隐状态信息,确定所述预测深度图,包括:将t时刻的不同尺度下的所述第一隐状态信息进行特征融合,确定所述预测深度图。
[0008]在一种可能的实现方式中,所述方法还包括:获取t时刻对应的样本图像帧序列,
其中,所述样本图像帧序列包括t时刻的第一样本图像帧和所述第一样本图像帧的相邻样本图像帧;通过相机运动预测网络利用t

1时刻的第二隐状态信息对所述样本图像帧序列进行相机位姿预测,确定所述样本图像帧序列对应的样本预测相机运动,其中,所述第二隐状态信息包括与相机运动相关的特征信息;通过待训练的场景深度预测网络利用t

1时刻的第一隐状态信息对所述第一样本图像帧进行场景深度预测,确定所述第一样本图像帧对应的样本预测深度图,其中,所述第一隐状态信息包括与场景深度相关的特征信息;根据所述样本预测深度图和所述样本预测相机运动,构建损失函数;根据所述损失函数,对所述待训练的场景深度预测网络进行训练,以得到所述场景深度预测网络。
[0009]在一种可能的实现方式中,所述根据所述样本预测深度图和所述样本预测相机运动,构建损失函数,包括:根据所述样本预测相机运动,确定所述样本图像帧序列中所述第一样本图像帧的相邻样本图像帧相对所述第一样本图像帧的重投影误差项;根据所述样本预测深度图的分布连续性,确定惩罚函数项;根据所述重投影误差项和所述惩罚函数项,构建所述损失函数。
[0010]根据本公开的一方面,提供了一种相机运动预测方法,包括:获取t时刻对应的图像帧序列,其中,所述图像帧序列包括t时刻的目标图像帧和所述目标图像帧的相邻图像帧;通过相机运动预测网络利用t

1时刻的第二隐状态信息对所述图像帧序列进行相机位姿预测,确定所述图像帧序列对应的预测相机运动,其中,所述第二隐状态信息包括与相机运动相关的特征信息,所述相机运动预测网络是基于场景深度预测网络辅助训练得到的。
[0011]在一种可能的实现方式中,所述通过相机运动预测网络利用t

1时刻的第二隐状态信息对所述图像帧序列进行相机位姿预测,确定所述图像帧序列对应的预测相机运动,包括:对所述图像帧序列进行特征提取,确定所述图像帧序列对应的第二特征图,其中,所述第二特征图为与相机运动相关的特征图;根据所述第二图特征和t

1时刻的所述第二隐状态信息,确定t时刻的所述第二隐状态信息;根据t时刻的所述第二隐状态信息,确定所述预测相机运动。
[0012]在一种可能的实现方式中,所述预测相机运动包括所述图像帧序列中相邻图像帧之间的相对位姿。
[0013]在一种可能的实现方式中,所述方法还包括:获取t时刻对应的样本图像帧序列,其中,所述样本图像帧序列包括t时刻的第一样本图像帧和所述第一样本图像帧的相邻样本图像帧;通过场景深度预测网络利用t

1时刻的第一隐状态信息对所述第一样本图像帧进行场景深度预测,确定所述第一样本图像帧对应的样本预测深度图,其中,所述第一隐状态信息包括与场景深度相关的特征信息;通过待训练的相机运动预测网络利用t

1时刻的第二隐状态信息对所述样本图像帧序列进行相机位姿预测,确定所述样本图像帧序列对应的样本预测相机运动,其中,所述第二隐状态信息包括与相机运动相关的特征信息;根据所述样本预测深度图和所述样本预测相机运动,构建损失函数;根据所述损失函数,对所述待训练的相机运动预测网络进行训练,以得到所述相机运动预测网络。
[0014]在一种可能的实现方式中,所述根据所述样本预测深度图和所述样本预测相机运动,构建损失函数,包括:根据所述样本预测相机运动,确定所述样本图像帧序列中所述第一样本图像帧的相邻样本图像帧相对所述第一样本图像帧的重投影误差项;根据所述样本预测深度图的分布连续性,确定惩罚函数项;根据所述重投影误差项和所述惩罚函数项,构
建所述损失函数。
[0015]根据本公开的一方面,提供了一种场景深度预测装置,包括:第一获取模块,用于获取t时刻的目标图像帧;场景深度预测模块,用于通过场景深度预测网络利用t

1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测,确定所述目标图像帧对应的预测深度图,其中,所述第一隐状态信息包括与场景深度相关的特征信息,所述场景深度预测网络是基于相机运动预测网络辅助训练得到的。
[0016]在一种可能的实现方式中,所述场景深度预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种场景深度预测方法,其特征在于,包括:获取t时刻的目标图像帧;通过场景深度预测网络利用t

1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测,确定所述目标图像帧对应的预测深度图,其中,所述第一隐状态信息包括与场景深度相关的特征信息,所述场景深度预测网络是基于相机运动预测网络辅助训练得到的;其中,所述方法还包括:获取t时刻对应的样本图像帧序列,其中,所述样本图像帧序列包括t时刻的第一样本图像帧和所述第一样本图像帧的相邻样本图像帧;通过相机运动预测网络利用t

1时刻的第二隐状态信息对所述样本图像帧序列进行相机位姿预测,确定所述样本图像帧序列对应的样本预测相机运动,其中,所述第二隐状态信息包括与相机运动相关的特征信息;通过待训练的场景深度预测网络利用t

1时刻的第一隐状态信息对所述第一样本图像帧进行场景深度预测,确定所述第一样本图像帧对应的样本预测深度图,其中,所述第一隐状态信息包括与场景深度相关的特征信息;根据所述样本预测深度图和所述样本预测相机运动,构建损失函数;根据所述损失函数,对所述待训练的场景深度预测网络进行训练,以得到所述场景深度预测网络。2.根据权利要求1所述的方法,其特征在于,所述通过场景深度预测网络利用t

1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测,确定所述目标图像帧对应的预测深度图,包括:对所述目标图像帧进行特征提取,确定所述目标图像帧对应的第一特征图,其中,所述第一特征图为与场景深度相关的特征图;根据所述第一特征图和t

1时刻的所述第一隐状态信息,确定t时刻的所述第一隐状态信息;根据t时刻的所述第一隐状态信息,确定所述预测深度图。3.根据权利要求2所述的方法,其特征在于,t

1时刻的所述第一隐状态信息包括t

1时刻的不同尺度下的所述第一隐状态信息;所述对所述目标图像帧进行特征提取,确定所述目标图像帧对应的第一特征图,包括:对所述目标图像帧进行多尺度下采样,确定所述目标图像帧对应的不同尺度下的所述第一特征图;所述根据所述第一特征图和t

1时刻的所述第一隐状态信息,确定t时刻的所述第一隐状态信息,包括:针对任一尺度,根据该尺度下的所述第一特征图和t

1时刻的该尺度下的所述第一隐状态信息,确定t时刻的该尺度下的所述第一隐状态信息;所述根据t时刻的所述第一隐状态信息,确定所述预测深度图,包括:将t时刻的不同尺度下的所述第一隐状态信息进行特征融合,确定所述预测深度图。4.根据权利要求1所述的方法,其特征在于,所述根据所述样本预测深度图和所述样本预测相机运动,构建损失函数,包括:根据所述样本预测相机运动,确定所述样本图像帧序列中所述第一样本图像帧的相邻
样本图像帧相对所述第一样本图像帧的重投影误差项;根据所述样本预测深度图的分布连续性,确定惩罚函数项;根据所述重投影误差项和所述惩罚函数项,构建所述损失函数。5.根据权利要求1所述的方法,其特征在于,所述场景深度预测网络采用的是多尺度特征融合机制,所述场景深度预测网络中包括:深度编码器、多尺度卷积门控循环单元和深度解码器;所述通过场景深度预测网络利用t

1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测,确定所述目标图像帧对应的预测深度图,包括:利用所述深度编码器,对所述目标图像帧进行多尺度下采样,确定所述目标图像帧对应的不同尺度下的第一特征图,其中,所述第一特征图为与场景深度相关的特征图;针对任一尺度,利用所述多尺度卷积门控循环单元中该尺度下的卷积门控循环单元,根据该尺度下的所述第一特征图和t

1时刻的该尺度下的所述第一隐状态信息,确定t时刻的该尺度下的所述第一隐状态信息;利用所述深度解码器,将t时刻的不同尺度下的所述第一隐状态信息进行特征融合,确定所述预测深度图。6.根据权利要求1所述的方法,其特征在于,所述场景深度预测网络采用的是单尺度特征融合机制,所述场景深度预测网络中包括:深度编码器、卷积门控循环单元和深度解码器;所述通过场景深度预测网络利用t

1时刻的第一隐状态信息对所述目标图像帧进行场景深度预测,确定所述目标图像帧对应的预测深度图,包括:利用所述深度编码器,对所述目标图像帧进行特征提取,确定所述目标图像帧对应的第一特征图,其中,所述第一特征图为与场景深度相关的特征图;利用所述卷积门控循环单元,根据所述第一特征图和t

1时刻的所述第一隐状态信息,确定t时刻的所述第一隐状态信息;利用所述深度解码器,根据t时刻的所述第一隐状态信息,确定所述预测深度图。7.根据权利要求4所述的方法,其特征在于,所述根据所述样本预测深度图的分布连续性,确定惩罚函数项,包括:确定所述第一样本图像帧中各像素点的梯度值,其中,所述第一样本图像帧中各像素点的梯度值用于反映所述第一样本图像帧的分布连续性;根据所述第一样本图像帧中各像素点的梯度值,确定所述第一样本图像帧中的边缘区域和非边缘区域,以及根据所述第一样本图像帧中的边缘区域和非边缘区域,确定所述样本预测深度图中的边缘区域和非边缘区域;根据所述样本预测深度图中的边缘区域和非边缘区域,确定所述样本预测深度图中各像素点的梯度值;针对所述样本预测深度图的非边缘区域中的各像素点,设置与梯度值成正比的惩罚因子,以及针对所述样本预测深度图的边缘区域中的各像素点,设置与梯度值成反比的惩罚因子;根据所述样本预测深度图中各像素点的惩罚因子,构建所述惩罚函数项。8.根据权利要求1至7中任意一项所述的方法,其特征在于,所述方法还包括:
利用相邻时刻之间的场景深度和相机位姿在时序上的关联关系,基于滑动窗口数据融合的机制,提取并记忆滑动窗口序列中与t时刻的场景深度和相机运动相关的隐状态信息;其中,t时刻对应的所述滑动窗口序列是所述样本图像帧序列,与t时刻的场景深度相关的隐状态信息是t

1时刻的所述第一隐状态信息,与t时刻的相机运动相关的隐状态信息是t

1时刻的所述第二隐状态信息。9.一种相机运动预测方法,其特征在于,包括:获取t时刻对应的图像帧序列,其中,所述图像帧序列包括t时刻的目标图像帧和所述目标图像...

【专利技术属性】
技术研发人员:韩滔张展鹏成慧
申请(专利权)人:深圳市商汤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1