一种基于车载多目摄像头和深度神经网络的SLAM系统技术方案

技术编号:38646650 阅读:13 留言:0更新日期:2023-09-02 22:37
本发明专利技术公开了一种基于车载多目摄像头和深度神经网络的SLAM系统,将多摄像头架设在车辆上,并对其进行标定,得到相机内参以及多相机之间的变换矩阵;拍摄一组视频或图像序列作为网络输入;将图像序列输入到前端计算视觉里程计,前端由特征编码器,视觉相似性计算模块与更新迭代模块构成;将关键帧序列输入到后端优化,后端会对整个关键帧序列进行全局BA;本发明专利技术基于深度学习算法赋予SLAM系统更强的稳定性与泛化能力,在一系列困难场景依然可以稳定的进行跟踪,多摄像头给予系统更低的成本以及更高的精度和鲁棒性,避免因单独传感器被遮挡而导致的系统崩溃现象,实现在低成本的情况下使SLAM系统运行的更加稳定,更具鲁棒性。更具鲁棒性。更具鲁棒性。

【技术实现步骤摘要】
一种基于车载多目摄像头和深度神经网络的SLAM系统


[0001]本专利技术涉及计算机视觉
,具体为一种基于车载多目摄像头和深度神经网络的SLAM系统。

技术介绍

[0002]SLAM(即时定位与地图构建)是一个专用术语,也称为CML或并发定位与建图,同步定位与建图问题可以描述为:机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置和地图进行自身定位,同时在自身定位的基础上建造增量式地图,实现机器人的自主定位和导航,SLAM(即时定位与地图构建)问题可依靠不同的传感器进行处理,例如,视觉、激光雷达、IMU、GNSS传感器;
[0003]虽然该技术在近年来取得了重大的进展,但是当前的SLAM算法主要针对单目以及双目摄像头,这些方法的视场角小,容易受到外界干扰,当传感器被遮挡时,系统将崩溃,而且在许多情况下会失效,例如特征点跟踪丢失,优化问题发散无法收敛以及偏移累积,使得系统的稳定性和鲁棒性低,而且激光雷达,GNSS等传感器成本高昂,多传感器系统令用户难以负担。

技术实现思路

[0004]本专利技术提供一种基于车载多目摄像头和深度神经网络的SLAM系统,可以有效解决上述
技术介绍
中提出当前的SLAM算法主要针对单目以及双目摄像头,这些方法的视场角小,容易受到外界干扰,当传感器被遮挡时,系统将崩溃,而且在许多情况下会失效,例如特征点跟踪丢失,优化问题发散无法收敛以及偏移累积,使得系统的稳定性和鲁棒性低,而且激光雷达,GNSS等传感器成本高昂,多传感器系统令用户难以负担的问题。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于车载多目摄像头和深度神经网络的SLAM系统,包括车载摄像头框架,车载摄像头框架由前后4个摄像头构成,车前端为1个单目的rgb相机,负责车辆的前视场,车后端分别有1个单目的rgb相机负责车辆后方视场以及1个视场斜向下的双目rgbd相机;
[0006]该系统包括如下实施步骤:
[0007]S1、将多摄像头架设在车辆上,并对其进行标定,得到相机内参以及多相机之间的变换矩阵;
[0008]S2、拍摄一组视频或图像序列作为网络输入;
[0009]S3、将图像序列输入到前端计算视觉里程计,前端由特征编码器,视觉相似性计算模块与更新迭代模块构成;
[0010]S4、将关键帧序列输入到后端优化,后端会对整个关键帧序列进行全局BA;
[0011]S5、对关键帧序列进行闭环检测进一步优化相机位姿。
[0012]根据上述技术方案,所述S1中,在获取相机内参以及多相机之间的变换矩阵时,首先准备一个高精度的marker场景,将车辆开入场景中央,场景四周是一组预先设置的不同
角度的ChArUco标定板;
[0013]具体的,先对单独相机进行标定,对相机获取的不同角度的标定板图像角点进行检测,得到角点的像素坐标,根据标定板大小和世界坐标原点计算角点的物理坐标值,并求取内参矩阵以及畸变系数,接着对相机外参进行标定,获取相机间的相对姿态,相机的外参标定亦可通过采用多个点的坐标数据来求得。
[0014]根据上述技术方案,所述S2中,主要是指通过相机来拍摄一组路况的视频或图像序列,并以此来作为网络输入。
[0015]根据上述技术方案,所述S3中,主要将S2中拍摄的视频或图像序列进行输入,前端计算视觉里程计直接对输入的视频或图像序列进行操作,构建一个frame

graph来储存前后帧之间共视关系,并多次迭代更新优化一个关键帧序列及其对应的位姿与深度;
[0016]先计算前后帧之间的图片特征以及对应的匹配特征点,从而求解两帧图像之间的相对位姿以及特征点的三维位置关系,利用线性运动模型初始化位姿,并固定图像序列前两帧的位姿作为初始相对位姿,进而计算其中一帧的特征投影到另一帧图像的位置,建立重投影误差;
[0017]此外,还需计算前后两帧由于相机运动而造成的每个像素的光度误差与特征点法进行互补,经全连接后共同输入更新模块,以此允许网络利用运动场的平滑度来获取更高的鲁棒性,在前端跟踪到新的关键帧后,通过计算前后关键帧的平均光流大小来计算他们之间的距离,并删除除中间存在的冗余关键帧,以此执行局部BA操作。
[0018]根据上述技术方案,在S3中,具体的,特征编码器由特征提取网络和上下文网络构成,仅在网络中执行一次,特征提取网络由6个残差块和3个降采样层组成,6个残差块具体为:分辨率分别为2个1/2的原始分辨率,2个1/4的原始分辨率和2个1/8的原始分辨率;
[0019]新的图像到来时,先通过特征提取网络进行特征提取,生成1/8输入图像分辨率I
H
×
W
×3→
I
H/
×
W/8
×
D
,D设置为256的特征图,上下文网络与特征提取网络结构一致,不同的是特征提取网络负责提取前后两帧每个像素的特征,上下文网络仅提取前一帧的特征。
[0020]根据上述技术方案,所述S3中,视觉相似性计算模块构建一个frame

graph用于储存前后帧之间共视关系,对前一网络得到的前后帧计算成本体积作为完全相关体积,为降低相关信息张量的大小,将相关体积的最后两个维度与尺寸分别为1、2、4、8的卷积核进行平均池化,构建一个4层相关金字塔,生成分辨率分别为原始分辨率1,1/2,1/4,1/8的相关信息张量C1,C2,C3,C4;
[0021]为方便查找匹配,使用半径为r的网格采用双线性插值对每一级的相关体积进行索引,经过一个全连接层后作为最终的特征向量,更新迭代模块由一个带有隐藏向量h的3
×
3的ConvGRU构成,可根据下式实现:
[0022][0023]将相关信息张量c
ij
与光流特征经两层卷积后与上下文特征一起全连接送入ConvGRU后,对隐藏向量h
ij
做平均池化来提取全局上下文信息,每次迭代都会对隐藏向量进行更新得到根据经两层卷积映射可以得到光流场误差修正r
ij
及对应置信度w
ij
,则修正的映射像素网格表示为:
[0024][0025]接着在DBA层中,将已修正的相关性光流场变化映射为相机位姿Δp
()
和深度的逆Δd
()
,相机位姿和深度的映射可基于SE(3)由下述代价函数实现:
[0026][0027]接着利用Gauss

Newton算法求解更新(Δp,Δd),同时利用Schur对矩阵进行分解,分别求取Δp与Δd,v和w分别代表相机位姿和深度的梯度方向:
[0028][0029]根据上述技术方案,所述S4中,将关键帧序列输入到后端优化,后端线程对多摄像头的相对位姿进行约束并通过更新迭代模块对关键帧的整个历史记录执行全局BA优化,以解决相机位姿估计产生的位姿漂移和累计误差。
[0030]根据上述技术方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于车载多目摄像头和深度神经网络的SLAM系统,其特征在于:包括车载摄像头框架,车载摄像头框架由前后4个摄像头构成,车前端为1个单目的rgb相机,负责车辆的前视场,车后端分别有1个单目的rgb相机负责车辆后方视场以及1个视场斜向下的双目rgbd相机;该系统包括如下实施步骤:S1、将多摄像头架设在车辆上,并对其进行标定,得到相机内参以及多相机之间的变换矩阵;S2、拍摄一组视频或图像序列作为网络输入;S3、将图像序列输入到前端计算视觉里程计,前端由特征编码器,视觉相似性计算模块与更新迭代模块构成;S4、将关键帧序列输入到后端优化,后端会对整个关键帧序列进行全局BA;S5、对关键帧序列进行闭环检测进一步优化相机位姿。2.根据权利要求1所述的一种基于车载多目摄像头和深度神经网络的SLAM系统,其特征在于:所述S1中,在获取相机内参以及多相机之间的变换矩阵时,首先准备一个高精度的marker场景,将车辆开入场景中央,场景四周是一组预先设置的不同角度的ChArUco标定板,使每个相机都可以拍到完整的不同角度的标定板以便进行相机标定;具体的,先对单独相机进行标定,对相机获取的不同角度的标定板图像角点进行检测,得到角点的像素坐标,根据标定板大小和世界坐标原点计算角点的物理坐标值,并求取内参矩阵以及畸变系数,接着对相机外参进行标定,获取相机间的相对姿态,相机的外参标定亦可通过采用多个点的坐标数据来求得。3.根据权利要求1所述的一种基于车载多目摄像头和深度神经网络的SLAM系统,其特征在于:所述S2中,主要是指通过相机来拍摄一组路况的视频或图像序列,并以此来作为网络输入。4.根据权利要求3所述的一种基于车载多目摄像头和深度神经网络的SLAM系统,其特征在于:所述S3中,主要将S2中拍摄的视频或图像序列进行输入,前端计算视觉里程计直接对输入的视频或图像序列进行操作,构建一个frame

graph来储存前后帧之间共视关系,并多次迭代更新优化一个关键帧序列及其对应的位姿与深度;先计算前后帧之间的图片特征以及对应的匹配特征点,从而求解两帧图像之间的相对位姿以及特征点的三维位置关系,利用线性运动模型初始化位姿,并固定图像序列前两帧的位姿作为初始相对位姿,进而计算其中一帧的特征投影到另一帧图像的位置,建立重投影误差;此外,还需计算前后两帧由于相机运动而造成的每个像素的光度误差与特征点法进行互补,经全连接后共同输入更新模块,以此允许网络利用运动场的平滑度来获取更高的鲁棒性,在前端跟踪到新的关键帧后,通过计算前后关键帧的平均光流大小来计算他们之间的距离,并删除除中间存在的冗余关键帧,以此执行局部BA操作。5.根据权利要求4所述的一种基于车载多目摄像头和深度神经网络的SLAM系统,其特征在于:在S3中,具体的,特征编码器由特征提取网络和上下文网络构成,仅在网络中执行一次,特征提取网络由6个残差块和3个降采样层组成,6个残差块具体为:分辨率分别为2个1/2的原始分辨率,2个1/4的原始分辨率和2个1/8的原始分辨率;
新的图像到来时,先通过特征提取网络进行特征提取,生成1/8输入图像分辨率I
H
×
W
×3→
I
H/
×
W/8
×
D
,D设置为256的特征图,上下文网络与特征提取网络结构一致,不同的是特征提取网络负责提取前后两帧每个像素的特征,上下文网络仅提取前一帧的特征。6.根据权利要求4所述的一种基于车载多目摄像头和深度神经网络的SLAM系统,其特征在于:所述S3中,视觉相似性计算模块构建一个frame

graph用于储存前后帧之间共视关系,对...

【专利技术属性】
技术研发人员:王家奎彭亮
申请(专利权)人:武汉唯理科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1