视觉惯性里程计模型的训练方法、位姿估计方法及装置制造方法及图纸

技术编号:33774585 阅读:74 留言:0更新日期:2022-06-12 14:27
本申请公开了一种视觉惯性里程计模型的训练方法、位姿估计方法及装置,其中,视觉惯性里程计模型的训练方法包括:将样本图像集中的相邻两帧样本彩色图像以及相邻两帧样本彩色图像之间所对应的样本IMU数据输入视觉惯性里程计模型,输出相邻两帧样本彩色图像所对应的两帧深度图像以及图像采集装置获取相邻两帧样本彩色图像时的估计位姿;基于相邻两帧样本彩色图像所对应的两帧深度图像、图像采集装置获取相邻两帧样本彩色图像时的估计位姿和相邻两帧样本彩色图像之间所对应的样本IMU数据,确定视觉惯性里程计模型的目标损失函数;利用目标损失函数,调整视觉惯性里程计模型的网络参数。上述方案,能够获得更鲁棒的位姿估计结果。计结果。计结果。

【技术实现步骤摘要】
视觉惯性里程计模型的训练方法、位姿估计方法及装置


[0001]本申请涉及计算机视觉
,特别是涉及一种视觉惯性里程计模型的训练方法、位姿估计方法及装置。

技术介绍

[0002]视觉里程计是视觉SLAM(Simultaneous localization and mapping,同时定位与地图构建)问题中的一个子模块,它是利用机器人上相机在其运动过程中拍摄的相邻两帧图片计算两帧间的相对位姿。视觉里程计仅使用相机作为传感器,受光学性质影响较大,例如光照变化、运动物体、无纹理区域等。现有的一些方法采用惯性传感器IMU(Inertial Measure Unit,惯性测量单元)作为视觉的补充,设计出视觉惯性里程计,利用惯性传感器对机器人加速度和角速度的测定,融合视觉信息,获得更鲁棒的估计效果。
[0003]当前的视觉惯性里程计多采用非线性优化的方式,以紧耦合的形式融合相机和惯性传感器信息。然而这种方式存在初始化和标定复杂,优化迭代过程耗时长或发散,并且可能会出现跟踪丢失(即位姿无法估计)的情况。现有的利用深度学习的视觉惯性里程计一方面无法像传统方法一样恢复运动尺度,另一方面它将视觉和惯性部分视作互相独立的模块,它们没有充分地融合视觉和惯性信息,最终位姿估计准确率差于传统非线性优化算法。

技术实现思路

[0004]本申请主要解决的技术问题是提供一种视觉惯性里程计模型的训练方法、位姿估计方法及相关装置。
[0005]本申请第一方面提供了一种视觉惯性里程计模型的训练方法,所述视觉惯性里程计模型的训练方法包括:获取样本图像集和样本IMU数据集;其中,所述样本图像集包括利用图像采集装置获取的若干帧连续的样本彩色图像,所述样本IMU数据集包括获取所述若干帧连续的样本彩色图像时获取得到的对应的样本IMU数据;将所述样本图像集中的相邻两帧样本彩色图像以及所述相邻两帧样本彩色图像之间所对应的样本IMU数据输入所述视觉惯性里程计模型,输出所述相邻两帧样本彩色图像所对应的两帧深度图像以及所述图像采集装置获取所述相邻两帧样本彩色图像时的估计位姿;基于所述相邻两帧样本彩色图像所对应的两帧深度图像、所述图像采集装置获取所述相邻两帧样本彩色图像时的估计位姿和所述相邻两帧样本彩色图像之间所对应的样本IMU数据,确定所述视觉惯性里程计模型的目标损失函数;利用所述目标损失函数,调整所述视觉惯性里程计模型的网络参数。
[0006]因此,通过获取样本图像集和样本IMU数据集,其中,样本图像集包括利用图像采集装置获取的若干帧连续的样本彩色图像,样本IMU数据集包括获取若干帧连续的样本彩色图像时获取得到的对应的样本IMU数据,在将样本图像集和样本IMU数据集输入视觉惯性里程计模型后,可以利用视觉惯性里程计模型估计出场景深度和图像采集装置的位姿,具体可以输出相邻两帧样本彩色图像所对应的两帧深度图像以及图像采集装置获取相邻两帧样本彩色图像时的估计位姿,于是可以基于相邻两帧样本彩色图像所对应的两帧深度图
像、图像采集装置获取相邻两帧样本彩色图像时的估计位姿和相邻两帧样本彩色图像之间所对应的样本IMU数据,来确定视觉惯性里程计模型的目标损失函数,因此将视觉信息与IMU信息在网络中融合起来,利用二者各自的优点,可以获得更准确、更鲁棒的视觉惯性里程计模型;另外,采用深度学习的框架实现视觉惯性里程计,相较于传统基于BA(Bundle

Adjustment,束集调整)的非线性方法,无需复杂初始化和迭代过程,模型更加简洁,解决了传统基于BA的非线性优化算法中的初始化与优化复杂的问题,并且避免了在复杂场景中出现跟踪丢失的情况。
[0007]其中,所述视觉惯性里程计模型包括深度估计网络、视觉编码网络、IMU编码网络和视觉惯性融合网络;所述将所述样本图像集中的相邻两帧样本彩色图像以及所述相邻两帧样本彩色图像之间所对应的样本IMU数据输入所述视觉惯性里程计模型,输出所述相邻两帧样本彩色图像所对应的两帧深度图像以及所述图像采集装置获取所述相邻两帧样本彩色图像时的估计位姿,包括:将所述样本图像集中的样本彩色图像输入所述深度估计网络,得到所述样本彩色图像对应的深度图像;以及将所述样本图像集中的前一帧样本彩色图像和当前帧样本彩色图像叠加后输入所述视觉编码网络,得到视觉特征编码;将所述前一帧样本彩色图像和所述当前帧样本彩色图像之间所对应的样本IMU数据输入所述IMU编码网络,得到IMU特征编码;将所述视觉特征编码和所述IMU特征编码输入所述视觉惯性融合网络,得到所述图像采集装置获取所述当前帧样本彩色图像时的估计位姿。
[0008]因此,利用深度估计网络、视觉编码网络、IMU编码网络和视觉惯性融合网络组成视觉惯性里程计模型,通过将样本图像集中的样本彩色图像输入深度估计网络来得到样本彩色图像对应的深度图像,从而实现对图像采集装置所处的环境深度图的估计;通过将样本图像集中的前一帧样本彩色图像和当前帧样本彩色图像叠加后输入视觉编码网络来得到视觉特征编码,同时将前一帧样本彩色图像和当前帧样本彩色图像之间所对应的样本IMU数据输入IMU编码网络来得到IMU特征编码,之后将视觉特征编码和IMU特征编码输入视觉惯性融合网络,可以得到图像采集装置获取当前帧样本彩色图像时的估计位姿,从而实现对图像采集装置自身位姿的估计。
[0009]其中,所述深度估计网络包括相互连接的编码器和解码器;所述将所述样本图像集中的样本彩色图像输入所述深度估计网络,得到所述样本彩色图像对应的深度图像,包括:将所述样本彩色图像输入所述深度估计网络,利用所述编码器的下采样层将所述样本彩色图像变换为深度特征图,再利用所述解码器的上采样层将所述深度特征图变换为所述样本彩色图像对应的深度图像。
[0010]因此,通过将样本彩色图像输入深度估计网络,深度估计网络采用编

解码器结构,利用编码器的下采样层将样本彩色图像变换为深度特征图,再利用解码器的上采样层将深度特征图变换为样本彩色图像对应的深度图像,从而可以使用深度学习的框架实现对图像采集装置所处的环境深度图的估计。
[0011]其中,所述视觉惯性融合网络采用注意力机制,所述视觉惯性融合网络包括前馈神经网络;所述将所述视觉特征编码和所述IMU特征编码输入所述视觉惯性融合网络,得到所述图像采集装置获取所述当前帧样本彩色图像时的估计位姿,包括:通过注意力机制将所述视觉特征编码和所述IMU特征编码进行加权融合,得到优化特征编码;利用前馈神经网络对所述优化特征编码进行处理,得到所述图像采集装置获取所述当前帧样本彩色图像时
的估计位姿。
[0012]因此,通过注意力机制将视觉特征编码和IMU特征编码进行加权融合,得到优化特征编码,并利用前馈神经网络对优化特征编码进行处理,可以得到图像采集装置获取当前帧样本彩色图像时的估计位姿,由于注意力机制关注了视觉信息和IMU信息的互补性,即IMU信息对于短时快速运动可以提供较好的运动估计,视觉信息相比于IMU信息不会有漂移,所以在不同场景下,注意力机制能有效学习视觉特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视觉惯性里程计模型的训练方法,其特征在于,包括:获取样本图像集和样本IMU数据集;其中,所述样本图像集包括利用图像采集装置获取的若干帧连续的样本彩色图像,所述样本IMU数据集包括获取所述若干帧连续的样本彩色图像时获取得到的对应的样本IMU数据;将所述样本图像集中的相邻两帧样本彩色图像以及所述相邻两帧样本彩色图像之间所对应的样本IMU数据输入所述视觉惯性里程计模型,输出所述相邻两帧样本彩色图像所对应的两帧深度图像以及所述图像采集装置获取所述相邻两帧样本彩色图像时的估计位姿;基于所述相邻两帧样本彩色图像所对应的两帧深度图像、所述图像采集装置获取所述相邻两帧样本彩色图像时的估计位姿和所述相邻两帧样本彩色图像之间所对应的样本IMU数据,确定所述视觉惯性里程计模型的目标损失函数;利用所述目标损失函数,调整所述视觉惯性里程计模型的网络参数。2.根据权利要求1所述的视觉惯性里程计模型的训练方法,其特征在于,所述视觉惯性里程计模型包括深度估计网络、视觉编码网络、IMU编码网络和视觉惯性融合网络;所述将所述样本图像集中的相邻两帧样本彩色图像以及所述相邻两帧样本彩色图像之间所对应的样本IMU数据输入所述视觉惯性里程计模型,输出所述相邻两帧样本彩色图像所对应的两帧深度图像以及所述图像采集装置获取所述相邻两帧样本彩色图像时的估计位姿,包括:将所述样本图像集中的样本彩色图像输入所述深度估计网络,得到所述样本彩色图像对应的深度图像;以及将所述样本图像集中的前一帧样本彩色图像和当前帧样本彩色图像叠加后输入所述视觉编码网络,得到视觉特征编码;将所述前一帧样本彩色图像和所述当前帧样本彩色图像之间所对应的样本IMU数据输入所述IMU编码网络,得到IMU特征编码;将所述视觉特征编码和所述IMU特征编码输入所述视觉惯性融合网络,得到所述图像采集装置获取所述当前帧样本彩色图像时的估计位姿。3.根据权利要求2所述的视觉惯性里程计模型的训练方法,其特征在于,所述深度估计网络包括相互连接的编码器和解码器;所述将所述样本图像集中的样本彩色图像输入所述深度估计网络,得到所述样本彩色图像对应的深度图像,包括:将所述样本彩色图像输入所述深度估计网络,利用所述编码器的下采样层将所述样本彩色图像变换为深度特征图,再利用所述解码器的上采样层将所述深度特征图变换为所述样本彩色图像对应的深度图像。4.根据权利要求2所述的视觉惯性里程计模型的训练方法,其特征在于,所述视觉惯性融合网络采用注意力机制,所述视觉惯性融合网络包括前馈神经网络;所述将所述视觉特征编码和所述IMU特征编码输入所述视觉惯性融合网络,得到所述图像采集装置获取所述当前帧样本彩色图像时的估计位姿,包括:通过注意力机制将所述视觉特征编码和所述IMU特征编码进行加权融合,得到优化特征编码;
利用前馈神经网络对所述优化特征编码进行处理,得到所述图像采集装置获取所述当前帧样本彩色图像时的估计位姿。5.根据权利要求4所述的视觉惯性里程计模型的训练方法,其特征在于,所述视觉惯性融合网络还包括第一多层感知机和第二多层感知机;所述通过注意力机制将所述视觉特征编码和所述IMU特征编码进行加权融合,得到优化特征编码,包括:将所述IMU特征编码分别输入所述第一多层感知机和所述第二多层感知机,得到若干个键值对,每个所述键值对包括一个键和一个值;获取所述视觉特征编码与每个键值对中的键的相似度,将所述相似度作为权重,将所述权重乘以对应的键值对中...

【专利技术属性】
技术研发人员:潘友琦查红彬刘浩敏
申请(专利权)人:北京市商汤科技开发有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1