【技术实现步骤摘要】
视觉惯性里程计模型的训练方法、位姿估计方法及装置
[0001]本申请涉及计算机视觉
,特别是涉及一种视觉惯性里程计模型的训练方法、位姿估计方法及装置。
技术介绍
[0002]视觉里程计是视觉SLAM(Simultaneous localization and mapping,同时定位与地图构建)问题中的一个子模块,它是利用机器人上相机在其运动过程中拍摄的相邻两帧图片计算两帧间的相对位姿。视觉里程计仅使用相机作为传感器,受光学性质影响较大,例如光照变化、运动物体、无纹理区域等。现有的一些方法采用惯性传感器IMU(Inertial Measure Unit,惯性测量单元)作为视觉的补充,设计出视觉惯性里程计,利用惯性传感器对机器人加速度和角速度的测定,融合视觉信息,获得更鲁棒的估计效果。
[0003]当前的视觉惯性里程计多采用非线性优化的方式,以紧耦合的形式融合相机和惯性传感器信息。然而这种方式存在初始化和标定复杂,优化迭代过程耗时长或发散,并且可能会出现跟踪丢失(即位姿无法估计)的情况。现有的利用深度学习的视觉惯性里程计一方面无法像传统方法一样恢复运动尺度,另一方面它将视觉和惯性部分视作互相独立的模块,它们没有充分地融合视觉和惯性信息,最终位姿估计准确率差于传统非线性优化算法。
技术实现思路
[0004]本申请主要解决的技术问题是提供一种视觉惯性里程计模型的训练方法、位姿估计方法及相关装置。
[0005]本申请第一方面提供了一种视觉惯性里程计模型的训练方法,所述视觉惯性里程计模型的 ...
【技术保护点】
【技术特征摘要】
1.一种视觉惯性里程计模型的训练方法,其特征在于,包括:获取样本图像集和样本IMU数据集;其中,所述样本图像集包括利用图像采集装置获取的若干帧连续的样本彩色图像,所述样本IMU数据集包括获取所述若干帧连续的样本彩色图像时获取得到的对应的样本IMU数据;将所述样本图像集中的相邻两帧样本彩色图像以及所述相邻两帧样本彩色图像之间所对应的样本IMU数据输入所述视觉惯性里程计模型,输出所述相邻两帧样本彩色图像所对应的两帧深度图像以及所述图像采集装置获取所述相邻两帧样本彩色图像时的估计位姿;基于所述相邻两帧样本彩色图像所对应的两帧深度图像、所述图像采集装置获取所述相邻两帧样本彩色图像时的估计位姿和所述相邻两帧样本彩色图像之间所对应的样本IMU数据,确定所述视觉惯性里程计模型的目标损失函数;利用所述目标损失函数,调整所述视觉惯性里程计模型的网络参数。2.根据权利要求1所述的视觉惯性里程计模型的训练方法,其特征在于,所述视觉惯性里程计模型包括深度估计网络、视觉编码网络、IMU编码网络和视觉惯性融合网络;所述将所述样本图像集中的相邻两帧样本彩色图像以及所述相邻两帧样本彩色图像之间所对应的样本IMU数据输入所述视觉惯性里程计模型,输出所述相邻两帧样本彩色图像所对应的两帧深度图像以及所述图像采集装置获取所述相邻两帧样本彩色图像时的估计位姿,包括:将所述样本图像集中的样本彩色图像输入所述深度估计网络,得到所述样本彩色图像对应的深度图像;以及将所述样本图像集中的前一帧样本彩色图像和当前帧样本彩色图像叠加后输入所述视觉编码网络,得到视觉特征编码;将所述前一帧样本彩色图像和所述当前帧样本彩色图像之间所对应的样本IMU数据输入所述IMU编码网络,得到IMU特征编码;将所述视觉特征编码和所述IMU特征编码输入所述视觉惯性融合网络,得到所述图像采集装置获取所述当前帧样本彩色图像时的估计位姿。3.根据权利要求2所述的视觉惯性里程计模型的训练方法,其特征在于,所述深度估计网络包括相互连接的编码器和解码器;所述将所述样本图像集中的样本彩色图像输入所述深度估计网络,得到所述样本彩色图像对应的深度图像,包括:将所述样本彩色图像输入所述深度估计网络,利用所述编码器的下采样层将所述样本彩色图像变换为深度特征图,再利用所述解码器的上采样层将所述深度特征图变换为所述样本彩色图像对应的深度图像。4.根据权利要求2所述的视觉惯性里程计模型的训练方法,其特征在于,所述视觉惯性融合网络采用注意力机制,所述视觉惯性融合网络包括前馈神经网络;所述将所述视觉特征编码和所述IMU特征编码输入所述视觉惯性融合网络,得到所述图像采集装置获取所述当前帧样本彩色图像时的估计位姿,包括:通过注意力机制将所述视觉特征编码和所述IMU特征编码进行加权融合,得到优化特征编码;
利用前馈神经网络对所述优化特征编码进行处理,得到所述图像采集装置获取所述当前帧样本彩色图像时的估计位姿。5.根据权利要求4所述的视觉惯性里程计模型的训练方法,其特征在于,所述视觉惯性融合网络还包括第一多层感知机和第二多层感知机;所述通过注意力机制将所述视觉特征编码和所述IMU特征编码进行加权融合,得到优化特征编码,包括:将所述IMU特征编码分别输入所述第一多层感知机和所述第二多层感知机,得到若干个键值对,每个所述键值对包括一个键和一个值;获取所述视觉特征编码与每个键值对中的键的相似度,将所述相似度作为权重,将所述权重乘以对应的键值对中...
【专利技术属性】
技术研发人员:潘友琦,查红彬,刘浩敏,
申请(专利权)人:北京市商汤科技开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。