一种动态场景下基于语义分割的直接法视觉定位方法技术

技术编号：24688705 阅读：131 留言：0更新日期：2020-06-27 09:26

本发明专利技术公开了一种动态场景下基于语义分割的直接法视觉定位方法，属于SLAM同步定位与建图领域；本发明专利技术首先采用深度学习中的语义分割技术对图像中的动态物体进行分割，获得像素级别的动态物体语义信息；在此基础上，从原始图像中根据像素点梯度信息提取候选点并根据语义信息对动态区域的候选点进行剔除，仅保留静态区域的候选点；然后基于保留的候选点采取融合图像语义信息的金字塔模型估计相机位姿；最后基于滑动窗口优化并结合图像语义信息对关键帧的位姿进行优化。实验结果表明，在动态环境下，本发明专利技术公开的方法的定位精度较现有系统提升71％‑86％。

A direct visual location method based on semantic segmentation in dynamic scene

全部详细技术资料下载

【技术实现步骤摘要】
一种动态场景下基于语义分割的直接法视觉定位方法
本专利技术涉及深度学习在视觉里程计(Visualodometry)中的应用，属于SLAM(SimultaneousLocalizationandMapping)同步定位与建图领域。
技术介绍
视觉SLAM(同时定位与建图，带有回环检测)或VO(视觉里程计，不带回环检测)是机器人在未知环境下自主运行的关键技术。基于机器人外部传感器检测到的环境数据，SLAM构造了机器人的周围环境图，同时给出了机器人在环境图中的位置。与雷达、声纳等测距仪器相比，视觉传感器具有体积小、功耗低、信息采集丰富等特点，能够在外部环境中提供丰富的纹理信息。因此，视觉SLAM已经成为当前研究的热点，并应用于自主导航、VR/AR等领域。传统的视觉SLAM(带有回环检测)或者VO(不带回环检测)在恢复场景信息和相机运动时是基于静态环境假设的。场景中的动态物体会影响定位精度。目前，传统的基于点特征的视觉SLAM算法通过检测动态点并将其标记为外点来处理简单的动态场景问题。ORB-SLAM通过RANSAC、卡方检验、关键帧法和局部地图减少了动态物体对定位精度的影响。2013年，有学者提出了一种新的关键帧表达和更新方法，用于对动态环境进行自适应建模，有效地检测和处理动态环境中的外观或结构变化。同年，有学者引入了多摄像机间姿态估计和建图的方法用于处理动态场景。2018年有学者提出将深度学习中的语义分割技术与现有的SLAM或者VO系统结合，通过语义分割获得场景中的动态物体先验信息，在特征点提取过程中剔除动态物体...

【技术保护点】
1.一种动态场景下基于语义分割的直接法视觉定位方法，其特征在于，包括以下步骤：/n步骤1、采集原始图像，并利用深度学习中的图像语义分割技术分割所述原始图像中的动态物体，获得包含动态物体像素级语义信息的语义图像；/n步骤2、在所述原始图像中提取候选点，并根据步骤1获取的语义图像剔除动态区域候选点，仅保留静态区域候选点；/n步骤3、基于步骤2中保留的静态区域候选点，结合图像金字塔模型和步骤1获取的语义图像估计相机位姿；/n步骤4、基于滑动窗口和和步骤1获得的语义信息的语义图像对关键帧位姿进行优化。/n

【技术特征摘要】
1.一种动态场景下基于语义分割的直接法视觉定位方法，其特征在于，包括以下步骤：
步骤1、采集原始图像，并利用深度学习中的图像语义分割技术分割所述原始图像中的动态物体，获得包含动态物体像素级语义信息的语义图像；
步骤2、在所述原始图像中提取候选点，并根据步骤1获取的语义图像剔除动态区域候选点，仅保留静态区域候选点；
步骤3、基于步骤2中保留的静态区域候选点，结合图像金字塔模型和步骤1获取的语义图像估计相机位姿；
步骤4、基于滑动窗口和和步骤1获得的语义信息的语义图像对关键帧位姿进行优化。

2.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位方法，其特征在于：在步骤1中，获得包含动态物体像素级语义信息的语义图像，具体包含如下步骤：
步骤1.1、定义常见动态物体类别，所定义类别中，动态物体包括：人、自行车、汽车、摩托车、飞机、公共汽车、火车、卡车、船、鸟、猫、狗、马、羊、牛、大象、熊、斑马、长颈鹿；
步骤1.2、对于原始图像I，将其输入到语义分割卷积神经网络MaskR-CNN中对图像中包含的步骤1.1所述动态物体进行分割，获得包含动态物体像素级语义信息的语义图像Isem；其中，所述语义分割卷积神经网络MaskR-CNN已知；Isem是黑白图像，其中，黑色区域像素值为0，且代表动态区域；白色区域像素值为1，且代表静态区域；
步骤1.3、对由原始图像组成的图像序列I＝{I1,I2,I3,I4,…,In}进行所述步骤1.1至1.2的操作，最终得到仅包含动态物体的语义图像序列。

3.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位方法，其特征在于：在步骤2中，在原始图像中提取候选点，并保留静态区域候选点，具体包含如下步骤：
步骤2.1、对于关键帧Ii，将其划分成d×d的图像块；
步骤2.2、设定梯度阈值T，对于每一个图像块，选择在该图像块的所有像素点中梯度最大且大于阈值T的像素点p作为预选候选点；
步骤2.3、若图像块中所有像素点的梯度均小于阈值T，令T'＝0.75×T，选择在该图像块的所有像素点中梯度最大且大于阈值T'的像素点p作为预选候选点；
步骤2.4、设定像素间隔D，记p点上、下、左、右间隔为D的四个像素点为p1,p2,p3,p4；
步骤2.5、对于p点及其相邻的p1,p2,p3,p4，根据语义图像中对应位置的像素值判断是否将p点保存为候选点：
若中，有一项为0，则认为预选候选点p处于动态区域，执行剔除操作；
若全部为1，则认为预选候选点p处于静态区域，执行保留操作。

4.根据权利要求1所述一种动态场景下基于语义分割的直接法视觉定位...

【专利技术属性】
技术研发人员：潘树国，盛超，高旺，谭涌，赵涛，喻国荣，
申请(专利权)人：东南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人