一种动态环境下基于改进SuperPoint的视觉SLAM方法技术

技术编号:35736046 阅读:20 留言:0更新日期:2022-11-26 18:38
本发明专利技术属于视觉SLAM技术领域,具体提供一种动态环境下基于改进SuperPoint的视觉SLAM方法,用以解决现有动态环境下的视觉SLAM方法鲁棒性不足的问题;本发明专利技术首先在SuperPoint网络的基础上,构建了添加残差权重分支的特征点及描述子提取网络,将网络残差权重分支输出与特征点分支输出进行加权融合,使构建的网络具有剔除动态特征点的功能;之后将构建的网络应用于ORB

【技术实现步骤摘要】
一种动态环境下基于改进SuperPoint的视觉SLAM方法


[0001]本专利技术属于视觉SLAM
,具体提供一种动态环境下基于改进SuperPoint的视觉SLAM方法。

技术介绍

[0002]同步定位与建图(Simultaneous Localization And Mapping,SLAM)作为机器人和计算机视觉领域的热点话题,广泛应用于增强现实、室内服务机器人以及无人驾驶;视觉SLAM使用相机图像作为输入,根据图像之间的变化,同时实现相机位姿的估计以及周边地图的构建。当前大多数视觉SLAM方法均是基于观测环境为静态的强假设,由于现实环境中的动态对象的存在,导致许多不稳定的数据关联,出现累计漂移甚至丢失。
[0003]当前针对动态环境的视觉SLAM系统中,基于语义的方法通过目标检测或者语义分割来获得先验动态对象的像素级掩码或边界框,对场景中运动的物体上的特征点当作“坏点”处理,剔除动态对象上的特征点,以减少动态对象对位姿估计的影响,提高了动态环境下的定位精度;同时,目前主流的视觉SLAM系统主要依靠人工设计的点特征进行图像间的匹配跟踪,在面对视角变化距离,光照环境变化大的环境下,易导致跟踪失败;近年来,基于深度学习特征点和描述子提取网络在光照和视角变化剧烈的场景下表现优异;因此,本专利技术提供一种动态环境下基于改进SuperPoint的视觉SLAM方法。

技术实现思路

[0004]本专利技术的目的在于针对现有动态环境下的视觉SLAM方法鲁棒性不足的问题,提出了一种动态环境下基于改进SuperPoint的视觉SLAM方法;本专利技术在特征点和描述子提取网络SuperPoint的基础上,加入了残差权重图,利用语义信息剔除动态特征点、引导SuperPoint检测稳定的静态特征点,显著改善视觉SLAM方法在动态场景下的准确性和鲁棒性。
[0005]为实现上述目的,本专利技术采用的技术方案如下:
[0006]一种动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,包括以下步骤:
[0007]步骤1、构建带标签数据集;
[0008]将无标签的真实图像作为输入,使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签,使用特征点自标注方法得到特征点伪标签;
[0009]步骤2、构建图像静态特征点及描述子提取网络,并在带标签数据集上完成离线训练;
[0010]所述图像静态特征点及描述子提取网络包括:共享编码器、残差权重分支、特征点分支及描述子分支,输入图像经过共享编码器进行进行下采样得到初步特征图,残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码,得到残差权重图、特征点概率图与描述子特征图,其中,残差权重图与特征点概率图进一步加权融合得到特征点置信度
图,再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点;对描述子特征图进行双三次线性插值,再通过L2归一化为单位长度,得到稠密描述子向量;
[0011]步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB

SLAM2的特征点和描述子提取过程,实现基于改进SuperPoint的视觉SLAM方法。
[0012]进一步的,所述共享编码器从的输入图像中得到初步特征图,具体由依次连接的Conv3
×3×1×
64/s2、Conv3
×3×
64
×
64、Conv3
×3×
64
×
128/s2、Conv3
×3×
128
×
128、Conv3
×3×
128
×
256/s2、Conv3
×3×
256
×
256构成,且每个卷积层后均设置非线性函数Relu层。
[0013]进一步的,所述残差权重分支中通过残差权重解码器对初步特征图进行解码,解码过程中使用PixelShuffle操作对残差权重图进行上采样、使其还原到输入图像的原始尺寸,最后通过Sigmoid函数将输出映射到[0,1]范围,得到残差权重图;所述残差权重解码器由依次连接的Conv3
×3×
256
×
256、Conv3
×3×
64
×
64、Conv3
×3×
16
×
16、Conv1
×1×4×
1构成,且卷积层Conv3
×3×
256
×
256、Conv3
×3×
64
×
64、Conv3
×3×
16
×
16后均设置非线性函数Relu层。
[0014]进一步的,所述特征点提取分支中通过特征点解码器对初步特征图进行解码得到输出,再通过Softmax操作丢弃回收通道,最后使用Reshape操作进行维度切换,得到特征点概率图;所述特征点解码器由Conv 3
×3×
256
×
256、Conv1
×1×
256
×
65构成,且Conv 3
×3×
256
×
256后设置非线性函数Relu层。
[0015]进一步的,所述描述子检测分支中通过描述子解码器对初步特征图进行解码,得到维度为(H/8)
×
(W/8)
×
256的描述子特征图,再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量(维度为H
×
W
×
256);所述描述子解码器由Conv 3
×3×
256
×
256、Conv1
×1×
256
×
256构成,且Conv 3
×3×
256
×
256后设置非线性函数Relu层。
[0016]进一步的,所述离线训练具体为:
[0017]将带标签数据集中真实图像进行随机单应性变换得到副本图像,将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络;设置损失函数,对图像静态特征点及描述子提取网络进行离线训练;
[0018]所述损失函数L在SuperPoint损失函数中增加了残差权重损失,即损失函数由特征点损失L
p
、描述子损失L
d
与残差权重损失L
w
三部分构成,具体为:
[0019]L(X
p
,X

p
,X
w
,X

w
,D,D

;Y
p
,Y

p
,Y
w
,Y

w
,S)=L
p
(X本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,包括以下步骤:步骤1、构建带标签数据集;将无标签的真实图像作为输入,使用端到端的视觉重定位方法PixLoc生成输入图像的残差权重图作为残差权重标签,使用特征点自标注方法得到特征点伪标签;步骤2、构建图像静态特征点及描述子提取网络,并在带标签数据集上完成离线训练;所述图像静态特征点及描述子提取网络包括:共享编码器、残差权重分支、特征点分支及描述子分支,输入图像经过共享编码器进行进行下采样得到初步特征图,残差权重分支、特征点分支与描述子分支分别对初步特征图进行解码,得到残差权重图、特征点概率图与描述子特征图,其中,残差权重图与特征点概率图进一步加权融合得到特征点置信度图,再设定置信度阈值、并通过快速近似非极大值抑制算法得到特征点;对描述子特征图进行双三次线性插值,再通过L2归一化为单位长度,得到稠密描述子向量;步骤3、将训练完成的图像静态特征点及描述子提取网络用于ORB

SLAM2的特征点和描述子提取过程,实现基于改进SuperPoint的视觉SLAM方法。2.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述共享编码器从的输入图像中得到初步特征图,具体由依次连接的Conv3
×3×1×
64/s2、Conv3
×3×
64
×
64、Conv3
×3×
64
×
128/s2、Conv3
×3×
128
×
128、Conv3
×3×
128
×
256/s2、Conv3
×3×
256
×
256构成,且每个卷积层后均设置非线性函数Relu层。3.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述残差权重分支中通过残差权重解码器对初步特征图进行解码,解码过程中使用PixelShuffle操作对残差权重图进行上采样、使其还原到输入图像的原始尺寸,最后通过Sigmoid函数将输出映射到[0,1]范围,得到残差权重图;所述残差权重解码器由依次连接的Conv3
×3×
256
×
256、Conv3
×3×
64
×
64、Conv3
×3×
16
×
16、Conv1
×1×4×
1构成,且卷积层Conv3
×3×
256
×
256、Conv3
×3×
64
×
64、Conv3
×3×
16
×
16后均设置非线性函数Relu层。4.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述特征点提取分支中通过特征点解码器对初步特征图进行解码得到输出,再通过Softmax操作丢弃回收通道,最后使用Reshape操作进行维度切换,得到特征点概率图;所述特征点解码器由Conv3
×3×
256
×
256、Conv1
×1×
256
×
65构成,且Conv3
×3×
256
×
256后设置非线性函数Relu层。5.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述描述子检测分支中通过描述子解码器对初步特征图进行解码,得到维度为(H/8)
×
(W/8)
×
256的描述子特征图,再进行双三次线性插值以及L2归一化得到单位长度的稠密描述子向量;所述描述子解码器由Conv3
×3×
256
×
256、Conv1
×1×
256
×
256构成,且Conv3
×3×
256
×
256后设置非线性函数Relu层。6.按权利要求1所述动态环境下基于改进SuperPoint的视觉SLAM方法,其特征在于,所述离线训练具体为:将带标签数据集中真实图像进行随机单应性变换得到副本图像,将真实图像与副本图像组成图像对、输入图像静态特征点及描述子提取网络;设置损失函数,对图像静态特征点及描述子提取网络进行离线训练;
所述损失函数L在SuperPoint损失函数中增加了残差权重损失,即损失函数由特征点损失L
p
、描述子损失L
d
与残差权重损失L
w
三部分构成,具体为:L(X
p
,X

p
,X
w
,X

w
,D,...

【专利技术属性】
技术研发人员:李福生黄杰
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1