一种基于卡尔曼位姿估计网络的单目视觉里程计方法技术

技术编号:33920091 阅读:11 留言:0更新日期:2022-06-25 20:53
本发明专利技术提供一种基于卡尔曼位姿估计网络的单目视觉里程计方法,属于计算机视觉技术领域。所述方法包括:构建深度估计网络和基于卡尔曼滤波的位姿估计网络;根据位姿估计网络输出的每对相邻帧图像之间的位姿变换以及深度估计网络输出的输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数;在构建的位姿估计网络与深度估计网络中,引入变分自动编码器结构,计算变分自动编码器损失函数;基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络;利用训练好的位姿估计网络估计每帧图像对应的相机位姿。采用本发明专利技术,能够提高相机位姿估计的精度并适应帧缺失的情况。应帧缺失的情况。应帧缺失的情况。

【技术实现步骤摘要】
一种基于卡尔曼位姿估计网络的单目视觉里程计方法


[0001]本专利技术涉及计算机视觉
,特别是指一种基于卡尔曼位姿估计网络的单目视觉里程计方法。

技术介绍

[0002]视觉里程计作为同时定位与建图技术的一部分,广泛应用在机器人导航、自动驾驶、增强现实、可穿戴计算等领域。视觉里程计是指根据输入视频图像帧估计相机当前的位置与姿态的方法。根据采用传感器的种类和数目不同,视觉里程计可分为单目视觉里程计、双目视觉里程计以及融合惯性信息的视觉里程计等。其中,单目视觉里程计具有着仅需要一个相机,对硬件要求较低、无需矫正等优点。
[0003]传统的视觉里程计方法首先进行图像特征提取与匹配,然后根据几何关系估计相邻两帧之间的相对位姿。这种方法在实际应用中取得了不错的结果,是当前视觉里程计的主流方法,但其存在计算性能与鲁棒性难以平衡的问题。
[0004]基于深度学习的单目视觉里程计可分为有监督的方法和自监督的方法。自监督的方法仅仅需要输入视频图像帧,不需要采集真实的位姿,没有对额外设备的依赖,适用性比有监督的方法更为广泛。
[0005]现有的许多自监督方法没有考虑帧与帧之间的关联,帧间的信息没有被充分利用,导致训练出的网络难以估计出更为精确的位姿,也不能适应帧缺失的情况。此外,场景中的运动物体,其与场景的欧氏变换不一致,不满足静态场景的假设,难以用一个欧氏变换去描述场景的运动,导致网络的估计结果出现偏差。

技术实现思路

[0006]本专利技术实施例提供了一种基于卡尔曼位姿估计网络的单目视觉里程计方法,能够提高相机位姿估计的精度并适应帧缺失的情况。所述技术方案如下:
[0007]本专利技术实施例提供了一种基于卡尔曼位姿估计网络的单目视觉里程计方法,包括:
[0008]构建深度估计网络和基于卡尔曼滤波的位姿估计网络;其中,位姿估计网络,用于输出输入的每对相邻帧图像之间的位姿变换,深度估计网络,用于输出输入帧的深度图像;
[0009]根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数;
[0010]在构建的位姿估计网络与深度估计网络中,引入变分自动编码器结构,计算变分自动编码器损失函数;
[0011]基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络;
[0012]利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿。
[0013]进一步地,所述位姿估计网络包括:位姿测量网络、位姿加权融合网络、位姿更新网络和位姿预测网络;其中,
[0014]通过位姿测量网络对输入的相邻帧图像I
t
‑1和I
t
进行编码,得到t时刻的位姿测量向量C
measure,t

[0015]C
measure,t
=Measure(I
t
‑1,I
t
)
[0016]其中,I
t
‑1和I
t
分别表示t

1时刻和t时刻的图像,Measure()为所述位姿测量网络;
[0017]将位姿测量向量C
measure,t
和位姿预测向量C
pred,t
输入到位姿加权融合网络,得到t时刻的位姿加权融合向量C
fuse,t

[0018]C
fuse,t
=(1

W
t
)*C
measure,t
+W
t
*C
pred,t
[0019]其中,W
t
为位姿加权融合网络中最后一层全连接层输出的[0,1]之间的权重;C
pred,t
为在将相邻帧图像I
t
‑2、I
t
‑1输入位姿估计网络时,位姿预测网络输出的t时刻的位姿预测向量,C
pred,t
=Predict(C
fuse,t
‑1),C
fuse,t
‑1为t

1时刻的位姿加权融合向量,Predict为所述位姿预测网络;
[0020]将位姿加权融合向量C
fuse,t
输入位姿更新网络估计位姿变换T
t

t
‑1:
[0021]T
t

t
‑1=Update(C
fuse,t
)
[0022]其中,Update()为所述位姿更新网络;T
t

t
‑1表示从I
t
‑1到I
t
的6自由度相对位姿向量,包括:相对旋转和相对位移。
[0023]进一步地,位姿估计网络与深度估计网络都采用编码器

解码器结构。
[0024]进一步地,所述根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数包括:
[0025]将位姿估计网络输出的每对相邻帧图像之间的位姿变换相乘得到较长时段的位姿变换,基于得到的较长时段的位姿变换,计算图像之间基于运动加权的光度误差;
[0026]根据计算得到的光度误差,计算视频图像序列基于运动加权的光度误差损失函数。
[0027]进一步地,所述将位姿估计网络输出的每对相邻帧图像之间的位姿变换相乘得到较长时段的位姿变换,基于得到的较长时段的位姿变换,计算图像之间基于运动加权的光度误差包括:
[0028]对于长度为N的一段视频图像序列,其对应的时刻为t0,t1,...,t
N
‑1,将位姿估计网络输出的每对相邻帧图像之间的位姿进行累积相乘,得到较长时段的位姿变换其中,为由时刻t
j
到时刻t
i
的图像之间的位姿变换;N为输入位姿估计网络与深度估计网络的每个批次的视频图像序列的长度;
[0029]对于图像上的一个点其三维坐标由其深度图像还原;其在图像上对应的投影点表示为:
[0030][0031]其中,K为摄相机内参数;为t
j
时刻的深度图像;
[0032]通过对图像采样,得到t
j
时刻图像的重构图像
[0033][0034]对于处的像素使用计算其运动加权项W
mw

[0035][0036]利用得到的运动加权项W
mw
,计算图像和之间基于运动加权的光度误差:
[0037][0038]其中,表示图像和之间基于运动加权的光度误差,表示原图像与重构图像之间的结构相似性,α0、α1、α2为控制各部分比例的超参数,符号*表示像素间乘积,‖
·
‖1表示1范数,‖...

【技术保护点】

【技术特征摘要】
1.一种基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,包括:构建深度估计网络和基于卡尔曼滤波的位姿估计网络;其中,位姿估计网络,用于输出输入的每对相邻帧图像之间的位姿变换,深度估计网络,用于输出输入帧的深度图像;根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数;在构建的位姿估计网络与深度估计网络中,引入变分自动编码器结构,计算变分自动编码器损失函数;基于得到的光度误差损失函数和变分自动编码器损失函数,采取针对帧缺失情况的训练策略训练位姿估计网络与深度估计网络;利用训练好的位姿估计网络估计待估计位姿的视频图像序列中每帧图像对应的相机位姿。2.根据权利要求1所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,所述位姿估计网络包括:位姿测量网络、位姿加权融合网络、位姿更新网络和位姿预测网络;其中,通过位姿测量网络对输入的相邻帧图像I
t
‑1和I
t
进行编码,得到t时刻的位姿测量向量C
measure,t
:C
measure,t
=Measure(I
t
‑1,I
t
)其中,I
t
‑1和I
t
分别表示t

1时刻和t时刻的图像,Measure()为所述位姿测量网络;将位姿测量向量C
measure,t
和位姿预测向量C
pred,t
输入到位姿加权融合网络,得到t时刻的位姿加权融合向量C
fuse,t
:C
fuse,t
=(1

W
t
)*C
measure,t
+W
t
*C
pred,t
其中,W
t
为位姿加权融合网络中最后一层全连接层输出的[0,1]之间的权重;C
pred,t
为在将相邻帧图像I
t
‑2、I
t
‑1输入位姿估计网络时,位姿预测网络输出的t时刻的位姿预测向量,C
pred,t
=Predict(C
fuse,t
‑1),C
fuse,t
‑1为t

1时刻的位姿加权融合向量,Predict为所述位姿预测网络;将位姿加权融合向量C
fuse,t
输入位姿更新网络估计位姿变换T
t

t
‑1:T
t

t
‑1=Update(C
fuse,t
)其中,Update()为所述位姿更新网络;T
t

t
‑1表示从I
t
‑1到I
t
的6自由度相对位姿向量,包括:相对旋转和相对位移。3.根据权利要求2所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,位姿估计网络与深度估计网络都采用编码器

解码器结构。4.根据权利要求1所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,所述根据输出的每对相邻帧图像之间的位姿变换以及输入帧的深度图像,计算视频图像序列基于运动加权的光度误差损失函数包括:将位姿估计网络输出的每对相邻帧图像之间的位姿变换相乘得到较长时段的位姿变换,基于得到的较长时段的位姿变换,计算图像之间基于运动加权的光度误差;根据计算得到的光度误差,计算视频图像序列基于运动加权的光度误差损失函数。5.根据权利要求4所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,所述将位姿估计网络输出的每对相邻帧图像之间的位姿变换相乘得到较长时段的位姿
变换,基于得到的较长时段的位姿变换,计算图像之间基于运动加权的光度误差包括:对于长度为N的一段视频图像序列,其对应的时刻为t0,t1,...,t
N
‑1,将位姿估计网络输出的每对相邻帧图像之间的位姿进行累积相乘,得到较长时段的位姿变换其中,为由时刻t
j
到时刻t
i
的图像之间的位姿变换;N为输入位姿估计网络与深度估计网络的每个批次的视频图像序列的长度;对于图像上的一个点其三维坐标由其深度图像还原;其在图像上对应的投影点表示为:其中,K为摄相机内参数;为t
j
时刻的深度图像;通过对图像采样,得到t
j
时刻图像的重构图像的重构图像对于处的像素使用计算其运动加权项W
mw
:利用得到的运动加权项W
mw
,计算图像和之间基于运动加权的光度误差:其中,表示图像和之间基于运动加权的光度误差,表示原图像与重构图像之间的结构相似性,α0、α1、α2为控制各部分比例的超参数,符号*表示像素间乘积,||
·
||1表示1范数,||
·
||2表示2范数。6.根据权利要求5所述的基于卡尔曼位姿估计网络的单目视觉里程计方法,其特征在于,在利用得到的运动加权项W
mw
,计算图像和之间基于运动加权的光度误差之前,所述方法还包括:确定参与光度误...

【专利技术属性】
技术研发人员:曾慧修海鑫刘红敏樊彬张利欣
申请(专利权)人:北京科技大学顺德研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1