当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于自监督深度学习的单目视觉惯导定位方法技术

技术编号:33551736 阅读:27 留言:0更新日期:2022-05-26 22:47
本发明专利技术公开了一种基于自监督深度学习的单目视觉惯导定位方法。本发明专利技术采集每个场景的数据并进行处理后,分别获得图像预处理数据和归一化后的原始惯导传感器数据以及对应的惯导传感器预积分数据;再根据时间戳进行数据对齐,并构成训练集;将训练集输入网络中进行训练,获得训练好的网络;采集目标场景的数据,处理后获得目标场景的数据并输入网络中,输出预测的6自由度的相对位姿,基于目标场景的惯导传感器预处理数据利用最小二乘法对预测的6自由度的相对位姿进行绝对尺度处理后,获得相机的6自由度的绝对位姿。本发明专利技术提升了位姿估计和深度估计的精度,不需要对视觉和惯导传感器进行严格的时空标定和初始化,具有很强的鲁棒性。性。性。

【技术实现步骤摘要】
一种基于自监督深度学习的单目视觉惯导定位方法


[0001]本专利技术涉及智能车辆的导航定位方法,特别是涉及了一种基于自监督深度学习的单目视觉惯导定位方法。

技术介绍

[0002]高精度的导航和定位是自动驾驶汽车的核心技术。常规的高精度定位手段,如差分GPS和惯性导航设备在一些GPS信号不佳的场合误差较大。其次,高精度惯导设备的价格往往较高,并不适用于商用的无人驾驶汽车方案。相比而言,一些基于语义地图的匹配定位方案相对廉价,但是考虑到视觉语义感知的误差和语义地图中语义要素的稀疏性,此类方案并不能实现任意场景下的定位。视觉惯性里程计(Visual Inertial Odometry)是一种融合图像视觉和惯性器件数据的组合定位方法。它通过摄像头和廉价惯性器件的结合,既可以有效抑制惯性器件的漂移,又可以克服视觉里程计中的尺度缺失、受环境光照影响大等问题,是实现低成本高精度定位的有效手段。然而,传统的基于物理模型的视觉惯导里程计依赖于鲁棒的初始化以及视觉传感器和惯导传感器的严格标定,当初始化失败、标定不准确、场景模糊或者场景特征稀疏的情况下,定位性能下降明显。随着深度学习在计算机视觉领域的成功应用,基于深度学习方法的视觉惯导里程计也逐步受到关注。但是全监督的视觉里程计需要提供位姿真值用于训练,限制了方法的应用。

技术实现思路

[0003]为了解决
技术介绍
中存在的问题,本专利技术的目的在于提供一种基于自监督深度学习的单目视觉惯导定位方法,适用于无人车、机器人等需要视觉定位的领域。
[0004]本专利技术利用神经网络的参数学习与非线性模型拟合的能力,利用深度学习解决视觉惯导组合的相机位姿估计和深度估计问题。利用不同的子网络分别对视觉图像、惯导传感器原始数据及其预积分数据进行建模,并通过自监督训练来优化网络模型的参数。在测试阶段,给定目标场景的图像数据与对应的惯导传感器数据,能够得到具有绝对尺度的6自由度的位姿。
[0005]本专利技术采用的技术方案的步骤如下:
[0006]1)利用单目视觉惯导里程计中的相机和惯导分别采集每个场景的原始图像数据和原始惯导传感器数据,对场景的原始图像数据进行预处理,获得图像预处理数据;接着对原始惯导传感器数据进行预积分后,获得惯导传感器预积分数据,再对当前场景的原始惯导传感器数据和对应的惯导传感器预积分数据分别进行归一化处理后,分别获得归一化后的原始惯导传感器数据以及惯导传感器预积分数据;
[0007]2)将当前场景的归一化后的原始惯导传感器数据以及惯导传感器预积分数据,根据时间戳分别与图像预处理数据进行数据对齐,分别获得对齐后的原始惯导传感器数据和对应的惯导传感器预积分数据,由多个场景的图像预处理数据、对齐后的原始惯导传感器数据和对应的惯导传感器预积分数据构成训练集;
[0008]3)将训练集输入自监督视觉惯导里程计深度学习网络中进行训练,获得训练好的自监督视觉惯导里程计深度学习网络;
[0009]4)采集目标场景的原始图像数据和原始惯导传感器数据,对原始惯导传感器数据进行预积分获得惯导传感器预积分数据,对目标场景的原始图像数据和原始惯导传感器数据和对应的惯导传感器预积分数据分别进行处理后,获得目标场景的归一化后的原始惯导传感器数据以及惯导传感器预积分数据和图像预处理数据并输入训练好的自监督视觉惯导里程计深度学习网络中,输出预测的6自由度的相对位姿,基于目标场景的惯导传感器预处理数据利用最小二乘法对预测的6自由度的相对位姿进行绝对尺度处理后,获得相机的6自由度的绝对位姿。
[0010]所述步骤1)中,将场景的原始图像数据的图像尺寸裁剪至预设尺寸,获得图像预处理数据;接着对场景的原始惯导传感器数据和对应的惯导传感器预积分数据分别进行零均值归一化处理后,分别获得归一化后的原始惯导传感器数据和对应的惯导传感器预积分数据。
[0011]所述步骤3)中的自监督视觉惯导里程计深度学习网络由目标图像帧提取模块、深度估计网络和位姿估计网络构成,目标图像帧提取模块分别与深度估计网络和位姿估计网络相连;
[0012]训练集中的图像预处理数据输入目标图像帧提取模块,目标图像帧提取模块分别输出原始目标图像帧和源图像帧,原始目标图像帧输入深度估计网络,原始目标图像帧、源图像帧和训练集中的对齐后的原始惯导传感器数据以及对应的惯导传感器预积分数据输入位姿估计网络。
[0013]所述位姿估计网络包括卷积神经网络、深度自注意力变换网络、第一多层感知机和第二多层感知机;
[0014]原始目标图像帧和源图像帧输入卷积神经网络中,对齐后的原始惯导传感器数据输入深度自注意力变换网络中,对齐后的惯导传感器预处理数据输入第一多层感知机中,卷积神经网络、深度自注意力变换网络和第一多层感知机的输出进行特征融合后输入到第二多层感知机中,第二多层感知机的输出作为位姿估计网络的输出。
[0015]所述自监督视觉惯导里程计深度学习网络基于目标图像帧提取模块输出的源图像帧、位姿估计网络输出的6自由度的相对位姿、深度估计网络输出的深度图和单目视觉惯导里程计中相机的内参矩阵利用视图重建方法进行视图重建后,获得重建目标图像帧,再利用双线性采样的方法对重建目标图像帧进行双线性插值,获得预测目标图像帧,最后基于预测目标图像帧和原始目标图像帧提取模块输出的原始目标图像帧计算总损失函数,根据总损失函数对自监督视觉惯导里程计深度学习网络进行训练。
[0016]所述目标图像帧提取模块中输入的图像预处理数据为图像序列,每个图像序列包含至少两张图像,当每个图像序列的图像个数为2时,前一帧的图像作为源图像帧,后一帧的图像作为原始目标图像帧;当每个图像序列的图像个数为奇数时,中间帧的图像作为原始目标图像帧,剩余帧的图像共同作为源图像帧。
[0017]所述深度自注意力变换网络包括位置编码模块、6个编码模块和第三多层感知机,对齐后的原始惯导传感器数据输入位置编码模块,位置编码模块的输出与对齐后的原始惯导传感器数据相加后输入到第一编码模块中,第一编码模块依次经第二编码模块、第三编
码模块、第四编码模块和第五编码模块后与第六编码模块相连,第六编码模块的输出输入到第三多层感知机中,第三多层感知机的输出作为深度自注意力变换网络的输出;6个编码模块的结构相同,包括多头注意力机制模块、第一残差模块、第一归一化层、前馈神经网络、第二残差模块和第二归一化层;每个编码模块中,当前编码模块的输入分别输入到当前编码模块的多头注意力机制模块和第一残差模块中,多头注意力机制模块和第一残差模块的输出相加后再输入到第一归一化层中,第一归一化层的输出分别输入到前馈神经网络和第二残差模块中,前馈神经网络和第二残差模块的输出相加后再输入到第二归一化层中,第二归一化层的输出作为当前编码模块的输出。
[0018]所述步骤4)中相机的6自由度的绝对位姿是通过平移量的绝对尺度与相机的6自由度的相对位姿相乘计算获得,其中平移量的绝对尺度的计算公式如下:
[0019]Scale
*
=arg min||Y
i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督深度学习的单目视觉惯导定位方法,其特征在于,包括以下步骤:1)利用单目视觉惯导里程计中的相机和惯导分别采集每个场景的原始图像数据和原始惯导传感器数据,对场景的原始图像数据进行预处理,获得图像预处理数据;接着对原始惯导传感器数据进行预积分后,获得惯导传感器预积分数据,再对当前场景的原始惯导传感器数据和对应的惯导传感器预积分数据分别进行归一化处理后,分别获得归一化后的原始惯导传感器数据以及惯导传感器预积分数据;2)将当前场景的归一化后的原始惯导传感器数据以及惯导传感器预积分数据,根据时间戳分别与图像预处理数据进行数据对齐,分别获得对齐后的原始惯导传感器数据和对应的惯导传感器预积分数据,由多个场景的图像预处理数据、对齐后的原始惯导传感器数据和对应的惯导传感器预积分数据构成训练集;3)将训练集输入自监督视觉惯导里程计深度学习网络中进行训练,获得训练好的自监督视觉惯导里程计深度学习网络;4)采集目标场景的原始图像数据和原始惯导传感器数据,对原始惯导传感器数据进行预积分获得惯导传感器预积分数据,对目标场景的原始图像数据和原始惯导传感器数据和对应的惯导传感器预积分数据分别进行处理后,获得目标场景的归一化后的原始惯导传感器数据以及惯导传感器预积分数据和图像预处理数据并输入训练好的自监督视觉惯导里程计深度学习网络中,输出预测的6自由度的相对位姿,基于目标场景的惯导传感器预处理数据利用最小二乘法对预测的6自由度的相对位姿进行绝对尺度处理后,获得相机的6自由度的绝对位姿。2.根据权利要求1所述的一种基于自监督深度学习的单目视觉惯导定位方法,其特征在于,所述步骤1)中,将场景的原始图像数据的图像尺寸裁剪至预设尺寸,获得图像预处理数据;接着对场景的原始惯导传感器数据和对应的惯导传感器预积分数据分别进行零均值归一化处理后,分别获得归一化后的原始惯导传感器数据和对应的惯导传感器预积分数据。3.根据权利要求1所述的一种基于自监督深度学习的单目视觉惯导定位方法,其特征在于,所述步骤3)中的自监督视觉惯导里程计深度学习网络由目标图像帧提取模块、深度估计网络和位姿估计网络构成,目标图像帧提取模块分别与深度估计网络和位姿估计网络相连;训练集中的图像预处理数据输入目标图像帧提取模块,目标图像帧提取模块分别输出原始目标图像帧和源图像帧,原始目标图像帧输入深度估计网络,原始目标图像帧、源图像帧和训练集中的对齐后的原始惯导传感器数据以及对应的惯导传感器预积分数据输入位姿估计网络。4.根据权利要求3所述的一种基于自监督深度学习的单目视觉惯导定位方法,其特征在于,所述位姿估计网络包括卷积神经网络、深度自注意力变换网络、第一多层感知机和第二多层感知机;原始目标图像帧和源图像帧输入卷积神经网络中,对齐后的原始惯导传感器数据输入深度自注意力变换网络中,对齐后的惯导传感器预处理数据输入第一多层感知机中,卷积神经网络、深度自注意力变换网络和第一多层感知机的输出进行特征融合后输入到第二多层感知机中,第二多层感...

【专利技术属性】
技术研发人员:项志宇刘磊
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1