动态场景下基于深度学习的视觉SLAM方法、系统及存储介质技术方案

技术编号:36690229 阅读:10 留言:0更新日期:2023-02-27 19:56
本发明专利技术公开了一种动态场景下基于深度学习的视觉SLAM方法、系统及存储介质。方法包括:通过将MASK R

【技术实现步骤摘要】
动态场景下基于深度学习的视觉SLAM方法、系统及存储介质


[0001]本专利技术涉及人工智能与机器人和计算机视觉领域,尤其涉及一种动态场景下基于深度学习的视觉SLAM方法、系统及存储介质。

技术介绍

[0002]同时定位与地图构建(SLAM,Simultaneous Localization and Mapping),其核心就是在无人机上搭建传感器,实时的确定无人机所在位置,并且进行三维建图,实时还原当前所处环境。SLAM是人工智能与机器人以及计算机视觉领域的重要研究内容,在自动驾驶等方面有广泛应用。针对室内动态场景下的定位和建图是SLAM的一个重要研究方向。
[0003]目前视觉SLAM的应用场景都假设为一个静态场景,在配准层面,不管是点对点或者点到特征的配准方式都是在静态的基础上提出的。而在理论上,动态点必然会影响到配准的精度。如果动态点占比很大,轨迹的精度都会有很大的下降。至于如何实时地识别和剔除动态点是目前视觉SLAM方向的一大难点,识别的方法目前也没有一个最好的方案。在建图方面,由于动态点的存在,最终重建出的地图会充斥大量的“鬼影”,在现实应用中会对实时定位、路径规划产生极大的影响。
[0004]目前主流的识别动态物体方法主要是分辨出输入图像中的动态物体部分,并且将不提取这些动态部分的特征点,来减少动态物体对整个系统性能的影响。对比于分离运动特征方法,识别动态物体方法可以更好地识别出运动物体的本质属性,改善处理的效果。有人提出对室内动态物体进行分离的SLAM方法,该系统主要通过YOLO语义分割网络对动态物体识别,获取对应的二进制掩码最终剔除,可以在室内环境下高效地实时运行。还有人提出Dynamic

SLAM,该系统在卷积神经网络的基础上,构造了一种基于先验概率的SSD检测器,在语义层次上检测新检测线程中的动态对象,接着针对SSD目标检测召回率低,提出了一种新的算法,有效增加了动态物体检测的准确性。但这些方法都不能剔除潜在运动物体上的不稳定特征点。

技术实现思路

[0005]本专利技术针对上述问题,提供了一种动态场景下基于深度学习的视觉SLAM方法、系统及存储介质,可有效去除动态物体对位姿估计的影响,提高视觉SLAM在动态环境中的精确性和稳定性。
[0006]本专利技术的第一方面,提供了一种动态场景下基于深度学习的视觉SLAM方法,方法包括以下步骤:
[0007]使用RGB

D相机获取RGB图像;
[0008]对采集到的RGB图像均匀化并提取RGB图像中的ORB特征点;
[0009]将完成均匀化的RGB图像输入MASK R

CNN动态目标检测网络中识别出动态物体所在区域,将动态物体上包含的ORB特征点进行初步剔除;
[0010]将初步剔除ORB特征点的帧输入半静态物体识别模块,根据相邻帧的映射关系计
算得到的深度与实际RGB

D相机的深度作差,通过阈值进行第二次去除动态ORB特征点;
[0011]对第二次去除动态ORB特征点后剩下的静态特征点进行特征匹配,得到相邻帧之间的位置关系,进行位姿估计,并建立最终的稀疏地图。
[0012]本专利技术进一步的技术方案是:所述对采集到的RGB图像均匀化并提取RGB图像中的ORB特征点,具体过程包括:
[0013]对采集到的RGB图像进行高斯模糊;
[0014]计算高斯模糊后的RGB图像特征点的描述子并进行RGB图像降采样,将RGB图像分为若干层,在每层提取FAST角点,根据FAST角点建立图像金字塔,具体方法包括:
[0015]计算每层图像金字塔上所需要提取的FAST角点个数N
α
为:
[0016][0017]其中,N表示从RGB图像中提取到的所有ORB特征点数量,s为缩放因子,n为金字塔的总层数,α表示金字塔层数;
[0018]对每层RGB图像网格化,在每个网格上调用Opencv函数提取FAST角点,如果在opencv函数预设的最低FAST阈值下提取不到FAST角点,则不再在此网格里提取FAST角点;
[0019]针对每个划分网格基于四叉树均匀的选取N
a
个FAST角点。
[0020]本专利技术进一步的技术方案是:所述MASK R

CNN动态目标检测网络中识别出动态物体所在区域,具体包括:
[0021]将需要识别的动态物体图制作成数据集,利用数据集训练所述MASK R

CNN动态目标检测网络;
[0022]将待检测RGB图像输入训练好的MASK R

CNN动态目标检测网络进行图像预处理后获得相应的特征图;
[0023]根据特征图计算RGB图像的感兴趣区域,获得多个感兴趣区域候选框;
[0024]将多个感兴趣区域候选框输入区域候选网络中进行二值分类和回归用于过滤一部分感兴趣区域候选框;
[0025]将过滤后的感兴趣区域候选框进行ROI Align操作获取感兴趣区域的类别以及MASK生成。
[0026]本专利技术进一步的技术方案是:所述将动态物体上包含的ORB特征点进行初步剔除,具体包括:
[0027]令输入MASK R

CNN网络的第N帧RGB图像包含的动态像素点特征集合为:静态像素点特征集合为:其中第N帧图像中的第i个动态像素点特征,表示第N帧图像帧中的第i个静态像素点特征;第N帧图像中提取出的特征点的集合为:其中为第N帧图像中的第i个特征点;若且则特征点为动态点并从集合T
N
中剔除。
[0028]本专利技术进一步的技术方案是:所述将初步剔除ORB特征点的帧输入半静态物体识别模块,根据相邻帧的映射关系计算得到的深度与实际RGB

D相机的深度作差,通过阈值进行第二次去除动态ORB特征点,具体包括:
[0029]将初步剔除ORB特征点的当前帧与若干以往帧进行重叠度比较,具体为:将若干以
往帧的特征点对应到当前帧并计算以往帧与当前帧的三维点夹角,对于夹角小于30度的当前帧三维点,计算三维点的投影深度与RGB

D相机深度之间的误差,当误差大于一定阈值时,判定当前帧的三维点为动态ORB特征点。
[0030]本专利技术进一步的技术方案是:所述对第二次去除动态ORB特征点后剩下的静态特征点利用最近点迭代算法进行特征匹配,得到相邻帧之间的位置关系,进行位姿估计,具体包括:
[0031]对剩下的静态特征点调用Opencv函数计算出描述子,根据描述子的相似性进行特征点的匹配;
[0032]定义相邻两帧已经匹配完成的特征点:
[0033]定义前后两帧匹配的第i个点对的误差项:
[0034]构建平方和最小问题,求使误差函数达到极小的
[0035]其中,分别表示需要求得的相邻两帧间的旋转矩阵和平移向量,n表示匹配特征点的对数。
...

【技术保护点】

【技术特征摘要】
1.一种动态场景下基于深度学习的视觉SLAM方法,其特征在于,所述方法包括以下步骤:使用RGB

D相机获取RGB图像;对采集到的RGB图像均匀化并提取RGB图像中的ORB特征点;将完成均匀化的RGB图像输入MASK R

CNN动态目标检测网络中识别出动态物体所在区域,将动态物体上包含的ORB特征点进行初步剔除;将初步剔除ORB特征点的帧输入半静态物体识别模块,根据相邻帧的映射关系计算得到的深度与实际RGB

D相机的深度作差,通过阈值进行第二次去除动态ORB特征点;对第二次去除动态ORB特征点后剩下的静态特征点利用最近点迭代算法进行特征匹配,得到相邻帧之间的位置关系,进行位姿估计,并建立最终的稀疏地图。2.根据权利要求1所述的动态场景下基于深度学习的视觉SLAM方法,其特征在于,所述对采集到的RGB图像均匀化并提取RGB图像中的ORB特征点,具体过程包括:对采集到的RGB图像进行高斯模糊;计算高斯模糊后的RGB图像特征点的描述子并进行RGB图像降采样,将RGB图像分为若干层,在每层提取FAST角点,根据FAST角点建立图像金字塔,具体方法包括:计算每层图像金字塔上所需要提取的FAST角点个数N
α
为:其中,N表示从RGB图像中提取到的所有ORB特征点数量,s为缩放因子,n为金字塔的总层数,α表示金字塔层数;对每层RGB图像网格化,在每个网格上调用Opencv函数提取FAST角点,如果在opencv函数预设的最低FAST阈值下提取不到FAST角点,则不再在此网格里提取FAST角点;针对每个划分网格基于四叉树均匀的选取N
a
个FAST角点。3.根据权利要求1所述的动态场景下基于深度学习的视觉SLAM方法,其特征在于,所述MASKR

CNN动态目标检测网络中识别出动态物体所在区域,具体包括:将需要识别的动态物体图制作成数据集,利用数据集训练所述MASKR

CNN动态目标检测网络;将待检测RGB图像输入训练好的MASK R

CNN动态目标检测网络进行图像预处理后获得相应的特征图;根据特征图计算RGB图像的感兴趣区域,获得多个感兴趣区域候选框;将多个感兴趣区域候选框输入区域候选网络中进行二值分类和回归用于过滤一部分感兴趣区域候选框;将过滤后的感兴趣区域候选框进行ROIAlign操作获取感兴趣区域的类别以及MASK生成。4.根据权利要求1所述的动态场景下基于深度学习的视觉SLAM方法,其特征在于,所述将动态物体上包含的ORB特征点进行初步剔除,具体包括:令输入MASK R

CNN网络的第N帧RGB图像包含的动态像素点特征集合为:静态像素点特征集合为:其中第N帧图像中
的第i个动态像素点特征,表示第N帧图像帧中的第i个静态像素点特征;第N帧图像中提取出的特征点的集合为:其中为第N帧图像中的第i个特征点;若且则特征点为动态点并从集合T
N
中剔除。5.根据权利要求1所述的动态场景下基于深度学习的视觉SLAM方法,其特征在于,所述将初步剔除ORB特征点的帧输入半静态物体识别模块,根据相邻帧的映射关系计算得到的深度与实际RGB

D相机的深度作差,通过阈值进行第二次去除动态ORB特...

【专利技术属性】
技术研发人员:杨志华施杰种竟争
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1