当前位置: 首页 > 专利查询>浙江大学专利>正文

一种融合场景语义的室外单目同步建图与定位方法技术

技术编号:28297579 阅读:100 留言:0更新日期:2021-04-30 16:23
本发明专利技术公开了一种融合场景语义的室外单目同步建图与定位方法。获取训练数据集,构建训练实时语义分割网络,接收单目相机图像输出语义分割结果图,获得语义类别标签;实时通过SLAM前端模块的视觉里程计接收单目相机图像,获取特征点和描述子,组建语义特征点;利用语义特征点建立语义地图,匹配更新语义地图点的语义类别标签统计信息;在SLAM后端模块接收不同时刻视觉里程计测量的单目相机位姿,利用位姿构建最小二乘优化重投影误差时,加入语义权重优化。本发明专利技术将场景语义融入到SLAM系统中,根据语义分割结果进行动态物体滤除,根据语义类别标签为特征点分配不同的优化权重,有效提升了整个SLAM系统的定位精度,计算代价小,实时性强。

【技术实现步骤摘要】
一种融合场景语义的室外单目同步建图与定位方法
本专利技术涉及一种移动机器人或智能车辆的建图和定位方法,特别是涉及了一种融合了场景语义信息的移动机器人或智能车辆的建图和定位(SLAM)方法。
技术介绍
SLAM,全称为Simultaneouslocalizationandmapping,译为同步建图与定位,希望机器人从未知环境的未知地点出发,在运动过程中通过重复观测到的地图特征,定位自身位置和姿态,再根据自身位置增量式的构建地图,从而达到同时定位和地图构建的目的。单目SLAM算法拥有较长的研究历史,其因为设备要求简单而得到较为广泛的使用。传统框架如ORB-SLAM在很多场景中展现出了较好的性能。但是,因为ORB依旧基于图像的灰度特征来提取特征点,因此对于光照的变化而产生的图像灰度变化还是比较敏感,同时,在传统SLAM框架中并没有考虑特征点的重要性与所在物体的语义类别的相关性。表现在:提取到的特征点在动态物体,比如人和车上时,SLAM计算的相机位姿就很容易受到影响;特征点都在静态物体上时,不同的物体语义类别对特征定位精度也有不同的影响。随着深度学习的发展,语义分割技术得到了突破,从图像中挖掘出深层语义类别信息成为可能,语义SLAM将语义信息加入到传统SLAM框架中,通过额外提供更高层次的语义信息辅助SLAM的计算,有助于提升SLAM的鲁棒性,语义分割实时性的提升也使得语义SLAM能在更多对实时性有要求的领域发挥作用,如何更好地利用语义信息也成为近年来的研究重点。本专利技术通过对基于视觉特征的语义SLAM相关方法进行研究,通过基于深度学习的像素级语义分割网络获取语义信息,滤除动态目标,并在优化中加入语义权重提高优化精度,最后构建语义地图。
技术实现思路
为了解决
技术介绍
中存在的问题,本专利技术目的在于提供一种融合场景语义的室外单目同步建图与定位方法,适用于面向室外复杂环境下的视觉建图和定位问题。本专利技术在传统单目SLAM技术的支持下,获取特征点的几何信息和描述子,依靠实时语义分割网络获取语义分割结果图,获得具有语义类别标签的语义特征点,在后端优化时,使用语义权重用于当前帧位姿计算,用于闭环检测时两帧之间相对位姿计算,用于局部地图优化调整和用于全局地图优化,以提升定位效果,使定位更加精确。本专利技术采用的技术方案的步骤如下:本专利技术方法包括以下几个模块:SLAM前端模块,包括实时语义分割网络和视觉里程计,持续接收单目相机捕获的图像,提取语义特征点;用于室外场景的实时语义分割网络,接收单目相机捕获的图像,输出语义分割结果图,根据语义分割结果图获得语义类别标签;SLAM建图模块,通过语义特征点得到语义地图点,建立语义地图。SLAM后端模块,利用语义类别标签加上语义权重进行BA(bundleadjustment)优化获得同步建图与定位的结果。(1)获取与实际运行场景相同的训练数据集,构建并训练实时语义分割网络,将训练后的实时语义分割网络接收单目相机捕获的图像输出语义分割结果图,通过语义分割结果图获得各个像素的语义类别标签;(2)SLAM前端模块中,实时通过SLAM前端模块中的视觉里程计接收单目相机捕获的图像,获取图像的特征点和描述子,并根据语义分割结果图获取特征点的语义类别标签,主要由特征点和语义类别标签组建语义特征点,由所有语义特征点构成了语义特征点集;所述(2)中,进行以下判断和处理:若语义特征点的语义类别标签属于动态物体类,包括人和各类型的车,则将该语义特征点废弃,从语义特征点集中删除;若语义特征点的语义类别标签不属于动态物体类,则语义特征点均保留。(3)SLAM建图模块中,建图时,实时利用语义特征点建立语义地图,通过语义特征点和语义地图中的语义地图点的匹配更新语义地图点的语义类别标签统计信息;(4)SLAM后端模块中,在SLAM后端模块接收不同时刻视觉里程计测量的单目相机的位姿,在利用单目相机的位姿和语义地图点在世界坐标系下的三维位置坐标构建最小二乘优化重投影误差时,加入语义权重进行优化,实现室外单目同步建图与定位。本专利技术将实时语义分割网络作为SLAM的一个进程,SLAM系统运行时,利用实时语义分割网络对接收单目相机捕获的图像获取语义分割结果图,进而再用语义分割结果图进行处理获得。所述的实时语义分割网络包括空间信息路径(SpatialPath)和上下文信息路径(ContextPath)和特征融合模块,分别用来解决常规网络中空间信息缺失和感受野过小的问题;空间信息路径和上下文信息路径分别接收输入图像处理后输出到特征融合模块进行融合,特征融合模块的输出作为实时语义分割网络的输出;所述的空间信息路径包含了三个连续的卷积归一化模块,每个卷积归一化模块是主要由卷积层、批归一化层、激活函数依次连接而成,最后一个卷积归一化模块的输出输入到特征融合模块;空间信息路径输出的特征图为输入图像的1/8,空间大小较大,可以对丰富的空间信息编码。所述的上下文信息路径包含四个下采样层和两个注意力优化模块,四个下采样层依次连接,第三个下采样层和第四个下采样层的输出分别经各自的一个注意力优化模块处理后再与第四个下采样层的输出连接后输入到特征融合模块;所述的注意力优化模块(ARM)包含了第一全局池化层、第一卷积层、第一批归一化层和第一激活函数;第一全局池化层的输入作为注意力优化模块的输入,第一全局池化层依次经第一卷积层、第一批归一化层和第一激活函数连接,第一激活函数的输出和注意力优化模块的输入经相乘操作后输出并作为注意力优化模块的输出;所述的特征融合模块(FFM)包含了连接层、卷积归一化模块、第二全局池化层、第二卷积层、第二激活函数、第三卷积层和第三激活函数;连接层接收分别来自空间信息路径和上下文信息路径的两个输入后进行连接操作,连接层的输出连接到卷积归一化模块,卷积归一化模块的输出依次经第二全局池化层、第二卷积层、第二激活函数、第三卷积层后输入到第三激活函数,第三激活函数的输出和卷积归一化模块的输出经相乘操作后再与卷积归一化模块的输出进行相加操作,相加操作的结果作为特征融合模块的输出。所述的实时语义分割网络中,使用预训练的Xception骨架对输入的图像进行快速的下采样,以获一个足够的感受野,同时编码了高层的语义上下文信息,加上注意力优化模块(ARM)来优化特征。最后网络通过特征融合模块(FFM)融合两个路径的结果。在训练实时语义分割网络时,由辅助损失函数监督模型训练,主要损失函数来监督整个网络的输出。所述的实时语义分割网络,能在具有较好的实时性的基础上,还在特征融合模块和注意力优化模块的帮助下保证一定的性能。加入到ORB_SLAM2中可以保证整个系统的实时性。所述步骤1中,单目相机持续捕获图像,帧率为fps,单目相机捕获的第i帧图像,宽为w像素,高为h像素,输入到实时语义分割网络得到第i帧的语义分割结果图Si,宽为w像素,高为h像素,语义分割结果图Si中第row行第col列的像素的值代表了语义类别标签c本文档来自技高网
...

【技术保护点】
1.一种融合场景语义的室外单目同步建图与定位方法,其特征在于:方法如下:/n(1)获取训练数据集,构建并训练实时语义分割网络,将训练后的实时语义分割网络接收单目相机捕获的图像输出语义分割结果图,通过语义分割结果图获得各个像素的语义类别标签;/n(2)实时通过SLAM前端模块中的视觉里程计接收单目相机捕获的图像,获取图像的特征点和描述子,并根据语义分割结果图获取特征点的语义类别标签,由特征点和语义类别标签组建语义特征点,由所有语义特征点构成了语义特征点集;/n(3)实时利用语义特征点建立语义地图,通过语义特征点和语义地图中的语义地图点的匹配更新语义地图点的语义类别标签统计信息;/n(4)在SLAM后端模块接收不同时刻视觉里程计测量的单目相机的位姿,在利用单目相机的位姿和语义地图点在世界坐标系下的三维位置坐标构建最小二乘优化重投影误差时,加入语义权重进行优化,实现室外单目同步建图与定位。/n

【技术特征摘要】
1.一种融合场景语义的室外单目同步建图与定位方法,其特征在于:方法如下:
(1)获取训练数据集,构建并训练实时语义分割网络,将训练后的实时语义分割网络接收单目相机捕获的图像输出语义分割结果图,通过语义分割结果图获得各个像素的语义类别标签;
(2)实时通过SLAM前端模块中的视觉里程计接收单目相机捕获的图像,获取图像的特征点和描述子,并根据语义分割结果图获取特征点的语义类别标签,由特征点和语义类别标签组建语义特征点,由所有语义特征点构成了语义特征点集;
(3)实时利用语义特征点建立语义地图,通过语义特征点和语义地图中的语义地图点的匹配更新语义地图点的语义类别标签统计信息;
(4)在SLAM后端模块接收不同时刻视觉里程计测量的单目相机的位姿,在利用单目相机的位姿和语义地图点在世界坐标系下的三维位置坐标构建最小二乘优化重投影误差时,加入语义权重进行优化,实现室外单目同步建图与定位。


2.根据权利要求1所述的一种融合场景语义的室外单目同步建图与定位方法,其特征在于:
所述的实时语义分割网络包括空间信息路径和上下文信息路径和特征融合模块;空间信息路径和上下文信息路径分别接收输入图像处理后输出到特征融合模块进行融合,特征融合模块的输出作为实时语义分割网络的输出;
所述的空间信息路径包含了三个连续的卷积归一化模块,每个卷积归一化模块是主要由卷积层、批归一化层、激活函数依次连接而成,最后一个卷积归一化模块的输出输入到特征融合模块;
所述的上下文信息路径包含四个下采样层和两个注意力优化模块,四个下采样层依次连接,第三个下采样层和第四个下采样层的输出分别经各自的一个注意力优化模块处理后再与第四个下采样层的输出连接后输入到特征融合模块;所述的注意力优化模块包含了第一全局池化层、第一卷积层、第一批归一化层和第一激活函数;第一全局池化层的输入作为注意力优化模块的输入,第一全局池化层依次经第一卷积层、第一批归一化层和第一激活函数连接,第一激活函数的输出和注意力优化模块的输入经相乘操作后输出并作为注意力优化模块的输出;
所述的特征融合模块包含了连接层、卷积归一化模块、第二全局池化层、第二卷积层、第二激活函数、第三卷积层和第三激活函数;连接层接收分别来自空间信息路径和上下文信息路径的两个输入后进行连接操作,连接层的输出连接到卷积归一化模块,卷积归一化模块的输出依次经第二全局池化层、第二卷积层、第二激活函数、第三卷积层后输入到第三激活函数,第三激活函数的输出和卷积归一化模块的输出经相乘操作后再与卷积归一化模块的输出进行相加操作,相加操作的结果作为特征融合模块的输出。


3.根据权利要求1所述的一种融合场景语义的室外单目同步建图与定位方法,其特征在于:
所述步骤1中,单目相机持续捕获图像,帧率为fps,单目相机捕获的第i帧图像,宽为w像素,高为h像素,输入到实时语义分割网络得到第i帧的语义分割结果图Si,宽为w像素,高为h像素,根据语义分割结果图Si中的每个像素的值进行以下判断获得语义类别标签:
当时,srow,col表示语义分割结果图Si中第row行第col列的像素的值,和分别为第k类语义类别标签在语义分割结果图中数值的下限和上限,则单目相机捕获的图像中的当前第row行第col列像素的语义类别标签为第k类,即crow,col=ck,crow,col表示单目相机捕获的图像中第row行第col列像素的语义类别标签,ck表示第k个语义类别标签。


4.根据权利要求1所述的一种融合场景语义的室外单目同步建图与定位方法...

【专利技术属性】
技术研发人员:项志宇闭云峰钱琦白庭铭钟文祺
申请(专利权)人:浙江大学华为技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1