当前位置: 首页 > 专利查询>东南大学专利>正文

一种动态场景下基于语义分割的直接法视觉定位方法技术

技术编号:24688705 阅读:131 留言:0更新日期:2020-06-27 09:26
本发明专利技术公开了一种动态场景下基于语义分割的直接法视觉定位方法,属于SLAM同步定位与建图领域;本发明专利技术首先采用深度学习中的语义分割技术对图像中的动态物体进行分割,获得像素级别的动态物体语义信息;在此基础上,从原始图像中根据像素点梯度信息提取候选点并根据语义信息对动态区域的候选点进行剔除,仅保留静态区域的候选点;然后基于保留的候选点采取融合图像语义信息的金字塔模型估计相机位姿;最后基于滑动窗口优化并结合图像语义信息对关键帧的位姿进行优化。实验结果表明,在动态环境下,本发明专利技术公开的方法的定位精度较现有系统提升71%‑86%。

A direct visual location method based on semantic segmentation in dynamic scene

【技术实现步骤摘要】
一种动态场景下基于语义分割的直接法视觉定位方法
本专利技术涉及深度学习在视觉里程计(Visualodometry)中的应用,属于SLAM(SimultaneousLocalizationandMapping)同步定位与建图领域。
技术介绍
视觉SLAM(同时定位与建图,带有回环检测)或VO(视觉里程计,不带回环检测)是机器人在未知环境下自主运行的关键技术。基于机器人外部传感器检测到的环境数据,SLAM构造了机器人的周围环境图,同时给出了机器人在环境图中的位置。与雷达、声纳等测距仪器相比,视觉传感器具有体积小、功耗低、信息采集丰富等特点,能够在外部环境中提供丰富的纹理信息。因此,视觉SLAM已经成为当前研究的热点,并应用于自主导航、VR/AR等领域。传统的视觉SLAM(带有回环检测)或者VO(不带回环检测)在恢复场景信息和相机运动时是基于静态环境假设的。场景中的动态物体会影响定位精度。目前,传统的基于点特征的视觉SLAM算法通过检测动态点并将其标记为外点来处理简单的动态场景问题。ORB-SLAM通过RANSAC、卡方检验、关键帧法和局部地图减少了动态物体对定位精度的影响。2013年,有学者提出了一种新的关键帧表达和更新方法,用于对动态环境进行自适应建模,有效地检测和处理动态环境中的外观或结构变化。同年,有学者引入了多摄像机间姿态估计和建图的方法用于处理动态场景。2018年有学者提出将深度学习中的语义分割技术与现有的SLAM或者VO系统结合,通过语义分割获得场景中的动态物体先验信息,在特征点提取过程中剔除动态物体特征,为后续定位提供稳健的静态区域特征点。上述基于深度学习的方法都是特征点法,显著提高了基于特征点的视觉SLAM系统在动态环境下的定位精度和鲁棒性。基于直接法的SLAM或VO在动态场景中的定位精度有待提高。
技术实现思路
本专利技术所要解决的技术问题是:为了提升传统VO在动态场景下的定位精度和鲁棒性,提供一种动态场景下基于语义分割的直接法视觉定位方法,能够对场景中的动态物体进行分割,降低场景中的动态物体对定位的干扰。本专利技术为解决上述技术问题采用以下技术方案:一种动态场景下基于语义分割的直接法视觉定位方法,包括以下步骤:步骤1、采集原始图像,并利用深度学习中的图像语义分割技术分割所述原始图像中的动态物体,获得包含动态物体像素级语义信息的语义图像;步骤2、在所述原始图像中提取候选点,并根据步骤1获取的语义图像剔除动态区域候选点,仅保留静态区域候选点;步骤3、基于步骤2中保留的静态区域候选点,结合图像金字塔模型和步骤1获取的语义图像估计相机位姿;步骤4、基于滑动窗口和和步骤1获得的语义信息的语义图像对关键帧位姿进行优化。作为本专利技术一种动态场景下基于语义分割的直接法视觉定位方法的进一步优选方案,在步骤1中,获得包含动态物体像素级语义信息的语义图像,具体包含如下步骤:步骤1.1、定义常见动态物体类别,所定义类别中,动态物体包括:人、自行车、汽车、摩托车、飞机、公共汽车、火车、卡车、船、鸟、猫、狗、马、羊、牛、大象、熊、斑马、长颈鹿;步骤1.2、对于原始图像I,将其输入到语义分割卷积神经网络MaskR-CNN中对图像中包含的步骤1.1所述动态物体进行分割,获得包含动态物体像素级语义信息的语义图像Isem;其中,所述语义分割卷积神经网络MaskR-CNN已知;Isem是黑白图像,其中,黑色区域像素值为0,且代表动态区域;白色区域像素值为1,且代表静态区域;步骤1.3、对由原始图像组成的图像序列I={I1,I2,I3,I4,…,In}进行所述步骤1.1至1.2的操作,最终得到仅包含动态物体的语义图像序列作为本专利技术一种动态场景下基于语义分割的直接法视觉定位方法的进一步优选方案,在步骤2中,在原始图像中提取候选点,并保留静态区域候选点,具体包含如下步骤:步骤2.1、对于关键帧Ii,将其划分成d×d的图像块;步骤2.2、设定梯度阈值T,对于每一个图像块,选择在该图像块的所有像素点中梯度最大且大于阈值T的像素点p作为预选候选点;步骤2.3、若图像块中所有像素点的梯度均小于阈值T,令T'=0.75×T,选择在该图像块的所有像素点中梯度最大且大于阈值T'的像素点p作为预选候选点;步骤2.4、设定像素间隔D,记p点上、下、左、右间隔为D的四个像素点为p1,p2,p3,p4;步骤2.5、对于p点及其相邻的p1,p2,p3,p4,根据语义图像中对应位置的像素值判断是否将p点保存为候选点:若中,有一项为0,则认为预选候选点p处于动态区域,执行剔除操作;若全部为1,则认为预选候选点p处于静态区域,执行保留操作。作为本专利技术一种动态场景下基于语义分割的直接法视觉定位方法的进一步优选方案,在步骤3中,采用金字塔模型恢复相机运动,具体包含如下步骤:步骤3.1、对于关键帧Ii,以0.5的缩放因子对图像进行缩放,分别获得相对于Ii分辨率的图像,将Ii与缩放后的三张图像按照分辨率由低到高的顺序构造图像金字塔,图像金字塔第k层图像记为并对金字塔各层进行如步骤2所述的静态区域候选点提取;步骤3.2、对于后续帧Ij及其对应的语义图像构造与步骤3.1同样的图像金字塔,图像金字塔第k层的图像分别记为记为和步骤3.3、对于中的单个候选点p,计算其投影到图像上形成的光度误差:其中,p'是p在上的投影点,ti和tj分别是图像Ii和Ij的曝光时间,ai,aj,bi,bj是图像的光度传递函数参数,Np是包括p点及周围相邻点共8个点的集合,wp是权重因子,‖.‖γ是Huber范数;步骤3.4、对于每个候选点p,根据其在中投影点p'的位置,计算一个剔除标签决定该点的投影残差是否去除:步骤3.5、将中各点的投影残差进行累加,并剔除投影到动态区域的残差,得到了金字塔第k层的投影残差和:步骤3.6、以在k-1层的相对位姿优化结果Tk-1作为本次优化的初值,利用高斯牛顿法对进行优化,可以获得关键帧和后续帧之间的相对位姿Tk;步骤3.7、对金字塔的所有层按照由上至下的顺序重复步骤3.3-3.6,最终获得关键帧Ii和后续帧Ij之间的相对位姿Tk;作为本专利技术一种动态场景下基于语义分割的直接法视觉定位方法的进一步优选方案,在步骤4中,采用滑动窗口和语义信息对关键帧位姿进行优化,具体包含如下步骤:步骤4.1、对于关键帧Ii中的单个点p,它投影到滑动窗口中另一关键帧Il上形成的光度误差为:其中p'是p在Il上的投影点,ti和tl分别是图像Ii和Il的曝光时间,ai,al,bi,bl是图像的光度传递函数参数,Np是包括p点及周围相邻点共8个点的集合,wp是权重因子,‖.‖γ是Huber范数;步骤4.2、对于关键帧Ii每个候选点p,根据其在Il中投影点p'的位置,计算一个剔除标签Cpl决定该点的投影残差是否去除:步骤4.3、本文档来自技高网
...

【技术保护点】
1.一种动态场景下基于语义分割的直接法视觉定位方法,其特征在于,包括以下步骤:/n步骤1、采集原始图像,并利用深度学习中的图像语义分割技术分割所述原始图像中的动态物体,获得包含动态物体像素级语义信息的语义图像;/n步骤2、在所述原始图像中提取候选点,并根据步骤1获取的语义图像剔除动态区域候选点,仅保留静态区域候选点;/n步骤3、基于步骤2中保留的静态区域候选点,结合图像金字塔模型和步骤1获取的语义图像估计相机位姿;/n步骤4、基于滑动窗口和和步骤1获得的语义信息的语义图像对关键帧位姿进行优化。/n

【技术特征摘要】
1.一种动态场景下基于语义分割的直接法视觉定位方法,其特征在于,包括以下步骤:
步骤1、采集原始图像,并利用深度学习中的图像语义分割技术分割所述原始图像中的动态物体,获得包含动态物体像素级语义信息的语义图像;
步骤2、在所述原始图像中提取候选点,并根据步骤1获取的语义图像剔除动态区域候选点,仅保留静态区域候选点;
步骤3、基于步骤2中保留的静态区域候选点,结合图像金字塔模型和步骤1获取的语义图像估计相机位姿;
步骤4、基于滑动窗口和和步骤1获得的语义信息的语义图像对关键帧位姿进行优化。


2.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位方法,其特征在于:在步骤1中,获得包含动态物体像素级语义信息的语义图像,具体包含如下步骤:
步骤1.1、定义常见动态物体类别,所定义类别中,动态物体包括:人、自行车、汽车、摩托车、飞机、公共汽车、火车、卡车、船、鸟、猫、狗、马、羊、牛、大象、熊、斑马、长颈鹿;
步骤1.2、对于原始图像I,将其输入到语义分割卷积神经网络MaskR-CNN中对图像中包含的步骤1.1所述动态物体进行分割,获得包含动态物体像素级语义信息的语义图像Isem;其中,所述语义分割卷积神经网络MaskR-CNN已知;Isem是黑白图像,其中,黑色区域像素值为0,且代表动态区域;白色区域像素值为1,且代表静态区域;
步骤1.3、对由原始图像组成的图像序列I={I1,I2,I3,I4,…,In}进行所述步骤1.1至1.2的操作,最终得到仅包含动态物体的语义图像序列。


3.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位方法,其特征在于:在步骤2中,在原始图像中提取候选点,并保留静态区域候选点,具体包含如下步骤:
步骤2.1、对于关键帧Ii,将其划分成d×d的图像块;
步骤2.2、设定梯度阈值T,对于每一个图像块,选择在该图像块的所有像素点中梯度最大且大于阈值T的像素点p作为预选候选点;
步骤2.3、若图像块中所有像素点的梯度均小于阈值T,令T'=0.75×T,选择在该图像块的所有像素点中梯度最大且大于阈值T'的像素点p作为预选候选点;
步骤2.4、设定像素间隔D,记p点上、下、左、右间隔为D的四个像素点为p1,p2,p3,p4;
步骤2.5、对于p点及其相邻的p1,p2,p3,p4,根据语义图像中对应位置的像素值判断是否将p点保存为候选点:
若中,有一项为0,则认为预选候选点p处于动态区域,执行剔除操作;
若全部为1,则认为预选候选点p处于静态区域,执行保留操作。


4.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位...

【专利技术属性】
技术研发人员:潘树国盛超高旺谭涌赵涛喻国荣
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1