【技术实现步骤摘要】
一种基于深度学习的视觉SLAM前端位姿估计方法
本专利技术涉及视觉导航领域,尤其是一种视觉SLAM前端位姿估计方法。采用端到端的形式在得到连续的图像帧输入后,实时对帧间的位姿变换进行估算,能够为无人机提供基于深度学习的高鲁棒性的视觉SLAM方法。
技术介绍
同时定位与地图构建(SLAM)是无人机等智能体携带其传感器在运动过程中实现周围环境地图的建立并且根据建立的环境地图来进行自身的定位的技术。当无人机进入某些特殊环境作业时,易受到环境的干扰使得GPS信号变弱或者完全失效,为了弥补无人机基于GPS导航系统的不足,在GPS不能正常使用的环境中,SLAM也可以作为一种有效的替代方案实现在未知环境中的实时导航。一个完整的SLAM框架由以下4个方面组成:前端跟踪、后端优化、回环检测、地图重建。前端跟踪即视觉里程计,负责初步估计相机帧间位姿及地图点的位置;后端优化负责接收视觉里程计前端测量的位姿信息并计算最大后验概率估计;回环检测负责判断机器人是否回到了原来的位置,并进行回环闭合修正估计误差;地图重建负责根据相机位姿和图像,构建与任务要
【技术保护点】
1.一种基于深度学习的视觉SLAM前端位姿估计方法,其特征在于包括下述步骤:/n步骤1):对训练数据集进行数据预处理;/n1.1)首先对KITTI数据库中图像进行裁剪,裁剪到尺寸相同;/n1.2)然后利用相邻帧之间转换矩阵进行数据集扩充;/n选择步长为N进行扩充:原始数据集数量为S,设时刻i和j间位姿变换矩阵为T
【技术特征摘要】
1.一种基于深度学习的视觉SLAM前端位姿估计方法,其特征在于包括下述步骤:
步骤1):对训练数据集进行数据预处理;
1.1)首先对KITTI数据库中图像进行裁剪,裁剪到尺寸相同;
1.2)然后利用相邻帧之间转换矩阵进行数据集扩充;
选择步长为N进行扩充:原始数据集数量为S,设时刻i和j间位姿变换矩阵为Tij,则时刻t和(t+N)之间的位姿矩Tt,t+N=Tt,t+1·Tt+1,t+2·Tt+2,t+3....Tt+N-1,t+N,利用此转换关系,选择扩充步长为N,将数据集扩充为NS,S为KITTI数据集提供的训练样本数;
1.3)数据转换;
利用PeterCorke的RoboticsToolbox将KITTI提供的轨迹数据从位姿矩阵形式转化为相邻帧之间的相对位姿变换向量,即旋转矩阵转化为欧拉角,位移部分转化为位移向量;
步骤2):离线深度神经网络模型的构建;
设帧间位姿估计6自由度参数为f,目标f输入参数变量x映射得到,则x为辅助参数;w为训练的数据集获得的训练序列系数,b为真实值与计算值的残差值,用以修正;
2.1)训练集和验证集的划分:由于KITTI提供的数据集只有00-10序列可以离线训练使用,将KITTI提供的数据集00-10序对中的前M个序列作为训练集,后11-M个序列作为测试集,用训练集进行网络训练,并用测试集验证网络学习的精度;
2.2)离线学习深度神经网络模型的搭建;
2.2.1)搭建光流提取网络,利用相邻图像帧完成初始的光流场的提取:采用Brox算法网络作为光流提取器,计算时间t和t+1的两帧图像之间的光流,用RGB编码量化计算出来的光流场,因此输入数据为三通道、八位的深度图像格式;
2.2.2)搭建全局特征提取网络;
对整个图像进行T1次下采样后进行深度网络训练,选用卷积神经网络进行特征提取,利用光流图全局信息进行训练,获取光流图的全局特征;
2.2.3)搭建局部特征提取网络;
将深度图像分成四个子图像,每个象限下采样T2次,然后通过CNN滤波器进行训练,对每个子图像进行两级训练CNN1和CNN2,最后一层级联全连接层;
局部特征提取网络的第一部分由四个分支组成,对每个子图像进行分别训练;图像的四个象限每一个都包含运动信息用来计算运动估计;然后,将第一个CNN-pooling层对的输出与第二个CNN-pooling层相关联;CNN1和CNN2从光流图像中提取不同的信息;CNN1提取更精细的细节,而CNN2提取粗糙一些的细节,并且这些信息并不完全重叠;
将四个复杂的特征组合在一起以形成包含全局的图像信息特征,因此网络能够用对称信息解决运动模糊,最后一层连接一个全连接网络,该网络使用两种分辨率下所有四个象限的信息;
2.2.4)合并全局特征提取网络及局部特征提取网络,搭建成光流图特征提取网络;
使用全局特征提取网络和局部特征提取网络的CNN滤波器将其输出馈送到下一层全连接层网络,利用全局特征提取网络的全局...
【专利技术属性】
技术研发人员:高嘉瑜,李斌,李阳,景鑫,
申请(专利权)人:中国电子科技集团公司第二十研究所,
类型:发明
国别省市:陕西;61
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。