基于视觉SLAM的语义地图的构建方法技术

技术编号:23315158 阅读:114 留言:0更新日期:2020-02-11 17:49
一种基于视觉SLAM语义地图的构建方法,该方法包括:通过RGB‑D相机采集目标环境图像信息;根据所述目标环境图像信息选取关键帧并确定关键帧的相机位姿;对所述关键帧进行语义分割,预测图像像素的类别;利用所述关键帧的相机位姿以及所述预测的关键帧像素的类别,采用八叉树结构构建三维语义地图。

The construction method of semantic map based on visual slam

【技术实现步骤摘要】
基于视觉SLAM的语义地图的构建方法
本专利技术涉及计算机视觉领域,尤其涉及一种基于视觉SLAM的语义地图的构建方法。
技术介绍
SLAM(SimultaneousLocalizationandMapping),即同步定位与地图构建技术,是指智能设备在未知的环境中运行,通过传感器获取周围环境的三维或二维空间结构信息,同时实现对自身的定位以及对周围场景的建图。视觉SLAM是在SLAM框架的基础上,利用视觉传感器(如单目相机、双目相机、RGB-D深度相机等),在自身进行定位的同时对大规模场景构建三维地图。传统的视觉SLAM方法包括追踪检测、后端优化、闭环检测以及构建地图四个部分,其中,追踪检测是通过传感器输入图像粗略估计出相机当前的位姿;局部优化是对追踪检测后的位姿估计进行全局一致的优化以消除噪声干扰;闭环检测是在相机重新回到原来经过的位置时通过约束优化位姿,使定位和位姿估计更加准确;最后整合前述获取的相机位姿和运动创建目标环境的三维地图。图1示出了传统的基于RGB-D相机的视觉SLAM地图构建方法的流程图。如图1所示,首先通过RGB-D相机获取彩色图像和相应像素的深度图,对图像的当前帧进行相机位姿估算并选取关键帧,然后基于关键帧进行局部优化、闭环检测,最终构建三维地图。然而,传统视觉SLAM构建的空间网络地图仅包含色彩、距离等低级信息,无法提供周围环境中物体的语义信息,机器人对周围环境的理解和认知更无从谈起。这不仅阻碍了人工智能发展步伐,也限制了机器人完成复杂任务的能力。随着人机交互的需求的不断扩大,具有场景理解和环境感知能力的语义地图应运而生。视觉SLAM语义地图的构建融合了机器视觉、运动控制、自主决策、机器学习等多项技术,在传统视觉SLAM基础上增加了语义识别环节,能预测出目标物体对应的类别并添加到地图中,实现对环境语义信息的感知。但现有的SLAM语义构图技术占用较大的存储空间,不适于复杂环境的地图构建。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺陷,提供一种基于视觉SLAM的语义地图的构建方法。本专利技术的一个方面涉及一种基于视觉SLAM的语义地图的构建方法,该方法包括:通过RGB-D相机采集目标环境图像信息;根据所述目标环境图像信息选取关键帧并确定关键帧的相机位姿;对所述关键帧进行语义分割,预测图像像素的类别;利用所述关键帧的相机位姿及所述预测的图像像素的类别,采用八叉树结构构建三维语义地图。优选的,所述方法还包括:根据所述关键帧的相机位姿构建三维地图;按照设定的分辨率用八叉树存储所述三维地图,其中所述八叉树中每个节点至少包含所述节点被占用概率以及语义类别概率分布的信息。优选的,所述方法还包括:采用如下公式构建三维地图:其中,其中X、Y、Z为第k帧关键帧中像素对应的世界坐标,u、v为该像素点的像素坐标,cx、cy、fx、fy为相机的内参,ηk为第k帧关键帧相机的位姿。优选的,所述方法还包括:增量式更新所述语义地图。优选的,所述增量式更新包括采用如下公式对所述八叉树中节点的被占据概率进行更新:其中,T为第T时刻对节点进行观测,Z为观测到的数据,P(n)为先验概率,P(n|Z1:T)整个1-T时间内该节点被占据的概率。优选的,所述增量式更新还包括采用如下公式对所述像素类别的概率分布进行增量式更新:其中,P(li|Z1:T)表示整个1-T时间内节点属于第i个类别的概率,为归一化常数。优选的,所述方法还包括对所述三维语义地图进行正则化。优选的,采用全连接条件随机场对所述地图进行正则化,使其满足目标函数:其中,P(X=x|Y)为节点观测值为Y时其标签为x的概率,E(x|Y)为图模型的边集合损失。本专利技术的另一个方面涉及一种存储介质,其中存储有计算机程序,在所述计算机程序被处理器执行时用于执行上述的方法。本专利技术的再一个方面涉及一种电子设备,包括处理器和存储器,所述存储器中存储有计算机程序,在所述计算机程序被处理器执行时用于执行上述的方法。与现有技术相比,本专利技术的优点在于:以八叉树结构建立语义地图,比传统的点云结构占用的存储空间小,查询效率高且支持多分辨率的查询;利用贝叶斯方式增量式更新每个地图节点所属类别的概率分布,解决了同一个空间点不断被观测的过程中类型概率不一致的问题;利用全连接条件随机场对地图进行正则化,可以减少毛刺和噪声,准确的建立全局一致性的场景语义地图。附图说明以下附图仅对本专利技术作示意性的说明和解释,并不用于限定本专利技术的范围,其中:图1示出了传统的基于视觉SLAM地图的构建方法的流程图;图2示出了根据本专利技术一个实施例的语义地图构建方法流程图;图3示出了根据本专利技术一个实施例的语义地图构建方法中追踪检测过程的流程图;图4示出了根据本专利技术一个实施例的语义地图构建方法中闭环检测模块的流程图;图5示出了根据本专利技术一个实施例的语义地图构建方法中语义分割模块的示意图;图6示出了根据本专利技术一个实施例的语义地图构建方法中构建三维语义地图的流程图;图7示出了八叉树树状结构示意图。图8示出了根据本专利技术一个实施例中规则八叉树三维语义地图的存储结构;图9示出了根据本专利技术一个实施例的语义地图构建方法中增量式更新语义地图的流程图;图10示出了根据本专利技术一个实施例的语义地图构建方法中采用的全连接条件随机场正则化的流程图;图11示出了条件随机场模型图。具体实施方式为了使本专利技术的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本专利技术进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。本专利技术在传统视觉SLAM构图的基础上,对关键帧进行语义分割,在三维地图中融入语义信息,并在采用八叉树结构存储语义地图。图2示出了根据本专利技术一个实施例的语义地图的构建方法流程图。如图2所示,该方法包括以下步骤:步骤S210,通过RGB-D相机采集目标环境图像信息。本专利技术采用RGB-D相机作为视觉传感器,采集目标环境的RGB图像和深度图像序列作为整个SLAM系统的输入,并将相机采集的第一幅图像时的位置为原点,建立世界坐标系。步骤S220,追踪检测,估算当前相机的位姿并选取关键帧。主流的SLAM根据是否需要提取特征,分为特征点法和直接法两种实现方法,其中,特征点法通过获取图像特征并匹配两帧图像的特征,利用匹配点对空间几何关系来估计相机的位姿和运动;直接法利用图像像素灰度的差异,通过最小化光度误差的算法估计相机的位姿和运动。图3示出了本专利技术一个实施例的语义地图构建方法中追踪检测过程的流程图。如图3所示,该实施例采用特征点法,首先对接收到的RGB图像序列和对应的深度图像序列实施特征点检测和描述子计算,对相邻帧进行特征匹配,再使用随机抽样一致(RandomSample本文档来自技高网
...

【技术保护点】
1.一种基于视觉SLAM的语义地图的构建方法,包括以下步骤:/n通过RGB-D相机采集目标环境图像信息;/n根据所述目标环境图像信息选取关键帧并确定关键帧的相机位姿;/n对所述关键帧进行语义分割,预测关键帧像素的类别;/n利用所述关键帧的相机位姿以及所述预测的关键帧像素的类别,采用八叉树结构构建三维语义地图。/n

【技术特征摘要】
1.一种基于视觉SLAM的语义地图的构建方法,包括以下步骤:
通过RGB-D相机采集目标环境图像信息;
根据所述目标环境图像信息选取关键帧并确定关键帧的相机位姿;
对所述关键帧进行语义分割,预测关键帧像素的类别;
利用所述关键帧的相机位姿以及所述预测的关键帧像素的类别,采用八叉树结构构建三维语义地图。


2.根据权利要求1所述的构建方法,其中,所述采用八叉树结构构建三维语义地图还包括:
根据所述关键帧的相机位姿构建三维地图;
按照设定的分辨率用八叉树存储所述三维地图,其中所述八叉树中每个节点至少包含所述节点被占用概率以及语义类别概率分布的信息。


3.根据权利要求2所述的构建方法,其中,采用如下公式构建三维地图:



其中,其中X、Y、Z为第k帧关键帧中像素对应的世界坐标,u、v为该像素点的像素坐标,cx、cy、fx、fy为相机的内参,ηk为第k帧关键帧相机的位姿。


4.根据权利要求2所述的构建方法,还包括增量式更新所述语义地图。


5.根据权利要求4所述的构建方法,其中,所述增量式更新包括采用如下公式对所述八叉树中...

【专利技术属性】
技术研发人员:张浩天韩银和
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1