一种关键点热力图引导的自监督单目视觉里程计方法技术

技术编号:33920093 阅读:8 留言:0更新日期:2022-06-25 20:53
本发明专利技术提供一种关键点热力图引导的自监督单目视觉里程计方法,属于计算机视觉领域。所述方法包括:构建位姿估计网络与深度估计网络;将视频图像序列输入位姿估计网络与深度估计网络;提取视频图像序列中每帧图像的关键点并生成关键点热力图;将位姿估计网络输出的每对相邻帧图像之间的位姿相乘得到较长时段的位姿,并基于深度估计网络输出的深度图像以及生成的关键点热力图,计算视频图像序列位姿一致性约束的光度误差损失函数;基于得到的光度误差损失函数,训练所述位姿估计网络与深度估计网络;利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿。采用本发明专利技术,能够提高相机位姿估计的精度。能够提高相机位姿估计的精度。能够提高相机位姿估计的精度。

【技术实现步骤摘要】
一种关键点热力图引导的自监督单目视觉里程计方法


[0001]本专利技术涉及计算机视觉领域,特别是指一种关键点热力图引导的自监督单目视觉里程计方法。

技术介绍

[0002]视觉里程计是指根据输入视频图像帧估计相机当前的位置与姿态的方法,可被广泛应用在机器人导航、自动驾驶、增强现实、可穿戴计算等领域。根据采用传感器的种类和数目不同,视觉里程计可分为单目视觉里程计、双目视觉里程计以及融合惯性信息的视觉里程计等。其中,单目视觉里程计具有着仅需要一个相机,对硬件要求较低、无需矫正等优点。
[0003]传统的视觉里程计方法首先进行图像特征提取与匹配,然后根据几何关系估计相邻两帧之间的相对位姿。这种方法在实际应用中取得了不错的结果,是当前视觉里程计的主流方法,但其存在计算性能与鲁棒性难以平衡的问题。
[0004]基于深度学习的单目视觉里程计可分为有监督的方法和自监督的方法。自监督的方法仅仅需要输入视频图像帧,不需要采集真实的位姿,没有对额外设备的依赖,适用性比有监督的方法更为广泛。
[0005]现有的自监督方法在训练过程中使用了过多的冗余像素,使得深度神经网络在学习过程中没有重点,导致网络估计的位姿会产生累积误差。此外,这些方法仅考虑了相邻帧间的位姿一致性,没有考虑视频图像序列的位姿一致性。

技术实现思路

[0006]本专利技术实施例提供了一种关键点热力图引导的自监督单目视觉里程计方法,能够提高相机位姿估计的精度。所述技术方案如下:
[0007]本专利技术实施例提供了一种关键点热力图引导的自监督单目视觉里程计方法,包括:
[0008]构建位姿估计网络与深度估计网络;
[0009]将视频图像序列输入位姿估计网络与深度估计网络,其中,位姿估计网络输出每对相邻帧图像之间的位姿,深度估计网络输出输入帧的深度图像;
[0010]提取视频图像序列中每帧图像的关键点并生成关键点热力图;
[0011]将位姿估计网络输出的每对相邻帧图像之间的位姿相乘得到较长时段的位姿,并基于深度估计网络输出的深度图像以及生成的关键点热力图,计算视频图像序列位姿一致性约束的光度误差损失函数;
[0012]基于得到的光度误差损失函数,训练所述位姿估计网络与深度估计网络;
[0013]利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿。
[0014]进一步地,所述提取视频图像序列中每帧图像的关键点并生成关键点热力图包
括:
[0015]对视频图像序列中图像I提取关键点,使用高斯核函数生成一幅仅关注关键点周围局部区域的关键点热力图,其中,图像I为视频图像序列中的任一图像;
[0016]生成的关键点热力图H[p]表示为:
[0017][0018]其中,p为关键点热力图中的像素点坐标,f∈F为关键点的坐标,F表示特征点集,δ为关键点的影响半径。
[0019]进一步地,所述将位姿估计网络输出的每对相邻帧图像之间的位姿相乘得到较长时段的位姿,并基于深度估计网络输出的深度图像以及生成的关键点热力图,计算视频图像序列位姿一致性约束的光度误差损失函数包括:
[0020]将位姿估计网络输出的每对相邻帧图像之间的位姿相乘得到较长时段的位姿,并基于深度估计网络输出的深度图像以及生成的关键点热力图,计算图像之间的关键点热力图加权的光度误差;
[0021]根据计算得到的光度误差,计算视频图像序列位姿一致性约束的光度误差损失函数。
[0022]进一步地,所述将位姿估计网络输出的每对相邻帧图像之间的位姿相乘得到较长时段的位姿,并基于深度估计网络输出的深度图像以及生成的关键点热力图,计算图像之间的关键点热力图加权的光度误差包括:
[0023]对于长度为N的一段视频图像序列,其对应的时刻为t0,t1,...,t
N
‑1,将位姿估计网络输出的每对相邻帧图像之间的位姿进行累积相乘,得到较长时段的位姿:
[0024][0025]其中,为由时刻t
j
到时刻t
i
的旋转变换矩阵;为由时刻t
j
到时刻t
i
的平移变换向量;和构成图像和之间的位姿;N为输入位姿估计网络与深度估计网络的每个批次的视频图像序列的长度;
[0026]基于得到的较长时段的位姿、深度估计网络输出的图像的深度图像以及生成的关键点热力图,计算t
i
和t
j
时刻的图像和之间的关键点热力图加权的光度误差
[0027]进一步地,所述光度误差损失函数L
p
表示为:
[0028][0029]进一步地,所述基于得到的较长时段的位姿、深度估计网络输出的图像的深度图像以及生成的关键点热力图,计算t
i
和t
j
时刻的图像和之间的关键点热力图加权的光度误差包括:
[0030]设为t
j
时刻时图像上的像素齐次坐标,则点在t
i
时刻图像上对应的像素点的齐次坐标表示为:
[0031][0032]其中,K为摄相机内参数;为由时刻t
j
到时刻t
i
的旋转变换矩阵;为由时刻t
j
到时刻t
i
的平移变换向量;为图像的深度图像;和构成图像和之间的位姿;
[0033]设为利用t
i
时刻的图像重构得到的t
j
时刻的重构图像,则表示为:
[0034][0035]其中,对于坐标不为整数的情况,采用双线性插值的方法进行采样;
[0036]基于得到的重构图像确定t
j
和t
i
时刻的图像和之间的关键点热力图加权的光度误差
[0037][0038]其中,表示源图像与重构图像的结构相似性,||
·
||1、||
·
||2分别为L1范数及L2范数,α0、α1、α2为超参数,*表示逐像素相乘,H表示关键点热力图。
[0039]进一步地,所述基于得到的光度误差损失函数,训练所述位姿估计网络与深度估计网络包括:
[0040]对于深度估计网络的输出,确定深度平滑损失函数L
s

[0041][0042]其中,为视差,即深度d
t
的倒数,分别表示x方向与y方向上的偏导数,I
t
为t时刻的图像;
[0043]根据确定的深度平滑损失函数L
s
以及所述光度误差损失函数L
p
,得到最终的损失函数L:
[0044]L=L
p
+λL
s
[0045]其中,λ为控制深度平滑损失函数比例的超参数;
[0046]利用最终的损失函数训练所述位姿估计网络与深度估计网络。
[0047]进一步地,所述利用训练好的位姿估计网络估计待估计位姿的视本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种关键点热力图引导的自监督单目视觉里程计方法,其特征在于,包括:构建位姿估计网络与深度估计网络;将视频图像序列输入位姿估计网络与深度估计网络,其中,位姿估计网络输出每对相邻帧图像之间的位姿,深度估计网络输出输入帧的深度图像;提取视频图像序列中每帧图像的关键点并生成关键点热力图;将位姿估计网络输出的每对相邻帧图像之间的位姿相乘得到较长时段的位姿,并基于深度估计网络输出的深度图像以及生成的关键点热力图,计算视频图像序列位姿一致性约束的光度误差损失函数;基于得到的光度误差损失函数,训练所述位姿估计网络与深度估计网络;利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿。2.根据权利要求1所述的关键点热力图引导的自监督单目视觉里程计方法,其特征在于,所述提取视频图像序列中每帧图像的关键点并生成关键点热力图包括:对视频图像序列中图像I提取关键点,使用高斯核函数生成一幅仅关注关键点周围局部区域的关键点热力图,其中,图像I为视频图像序列中的任一图像;生成的关键点热力图H[p]表示为:其中,p为关键点热力图中的像素点坐标,f∈F为关键点的坐标,F表示特征点集,δ为关键点的影响半径。3.根据权利要求1所述的关键点热力图引导的自监督单目视觉里程计方法,其特征在于,所述将位姿估计网络输出的每对相邻帧图像之间的位姿相乘得到较长时段的位姿,并基于深度估计网络输出的深度图像以及生成的关键点热力图,计算视频图像序列位姿一致性约束的光度误差损失函数包括:将位姿估计网络输出的每对相邻帧图像之间的位姿相乘得到较长时段的位姿,并基于深度估计网络输出的深度图像以及生成的关键点热力图,计算图像之间的关键点热力图加权的光度误差;根据计算得到的光度误差,计算视频图像序列位姿一致性约束的光度误差损失函数。4.根据权利要求3所述的关键点热力图引导的自监督单目视觉里程计方法,其特征在于,所述将位姿估计网络输出的每对相邻帧图像之间的位姿相乘得到较长时段的位姿,并基于深度估计网络输出的深度图像以及生成的关键点热力图,计算图像之间的关键点热力图加权的光度误差包括:对于长度为N的一段视频图像序列,其对应的时刻为t0,t1,...,t
N
‑1,将位姿估计网络输出的每对相邻帧图像之间的位姿进行累积相乘,得到较长时段的位姿:
其中,为由时刻t
j
到时刻t
i
的旋转变换矩阵;为由时刻t
j
到时刻t
i
的平移变换向量;和构成图像和之间的位姿;N为输入位姿估计网络与深度估计网络的每个批次的视频图像序列的长度;基于得到的较长时段的位姿、深度估计网络输出的图像的深度图像以及生成的关键点热力图,计算t
i
和t
j
时刻的图像和之间的关键点热...

【专利技术属性】
技术研发人员:曾慧修海鑫刘红敏樊彬张利欣
申请(专利权)人:北京科技大学顺德研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1