一种泊车场景下精确提取视觉SLAM静态特征的方法技术

技术编号:35860186 阅读:13 留言:0更新日期:2022-12-07 10:49
本发明专利技术公开一种泊车场景下精确提取视觉SLAM静态特征的方法,对于停车场场景有行人和车辆等动态物体的情况,使用多线程并行,利用目标检测模型将车辆与行人框出形成mask掩码;同时摒弃目前VSLAM系统常用的手工特征,选择使用改进的基于深度学习特征提取模型SuperPoint进行特征提取,让特征提取的精度更高更鲁棒,得出图像帧的关键点与描述子,根据生成的mask掩码筛选并剔除动态物体框中的特征点,利用剩余的精准静态特征点进行特征匹配和相机位姿估计,后续即可执行跟踪、建图和回环检测线程,完成整个SLAM工作。使用本方法降低了记忆泊车场景中误匹配的概率,可有效解决SLAM算法难以剔除动态特征点、场景识别精度低的缺陷,提高了记忆泊车的可靠性。提高了记忆泊车的可靠性。提高了记忆泊车的可靠性。

【技术实现步骤摘要】
一种泊车场景下精确提取视觉SLAM静态特征的方法


[0001]本专利技术属于视觉SLAM与深度学习领域,尤其涉及一种泊车场景下视觉SLAM利用深度学习目标检测去除动态特征点的方法,能够在泊车场景下精确提取视觉SLAM静态特征,便于完成建图。

技术介绍

[0002]同时定位与地图构建(Simultaneous localization and mapping,SLAM)技术在没有环境先验内容的前提下,利用机器人自身的传感器完成对周围环境信息的摄取和处理,进而完成地图构建与机器人的自身定位。利用相机传感器完成对周围环境的感知称为视觉SLAM,视觉传感器利用其成本低廉、采集信息丰富等优势,成为现代SLAM研究常用到的传感器。
[0003]随着视觉SLAM的技术不断完善和发展,涌现一批如ORB

SLAM2,OpenVSLAM等优秀的开源SLAM框架。经典的视觉SLAM主要由传感器数据输入、前端视觉里程计、后端优化、回环检测、建图几个模块组成。ORB

SLAM2由跟踪、局部建图和回环检测三个线程并行运行,采用传统ORB算法进行特征提取,经过验证,其对于光照的鲁棒性较差。近年来也不断涌现出一些基于深度学习的特征提取算法,特征提取对于整个视觉SLAM系统起到了举足轻重的作用,保证提取出的特征点对于场景具有较好的代表作用,现在的视觉SLAM大多只能提取出此场景当前场景下的所有特征点,但是对于车辆和行人这些动态物体上的特征点下次定位时未必还能匹配到,造成定位失败。

技术实现思路
<br/>[0004]针对上述传统视觉SLAM算法对于动态特征点以及特征点精度和鲁棒性上的不足,本专利技术的目的是提供一种泊车场景下精确提取视觉SLAM静态特征的方法,此方案能够提高特征点提取的精度,并且可有效减弱动态物体特征点对于视觉SLAM建图定位的影响,提高视觉SLAM的可靠性。
[0005]为解决上述技术问题,本专利技术提供的一种泊车场景下精确提取视觉SLAM静态特征的方法,包括以下步骤:
[0006]步骤1:对车前方的停车场场景提取图像,对图像进行预处理后将图像输入到目标检测网络中进行目标检测,得到目标物的检测框;
[0007]步骤2:筛选步骤1中输出的动态物体检测框,并形成mask掩码,与SuperPoint提取的特征点结合使用,剔除动态物体检测框的特征点,并得到关键点和描述子,SuperPoint网络包括关键点和描述子的共享编码器、关键点解码器和描述子解码器,共享编码器用于对图像进行编码得到特征图,关键点解码器用于对获得图像中关键点的坐标,描述子解码器用于获取关键点的描述子向量,其中,对SuperPoint网络的改进包括:将编码器中的所有卷积改成深度可分离卷积,其中,目标检测和特征提取使用多线程并行技术,在特征提取的同时进行目标检测;
[0008]步骤3:如果mask掩码代表的是行人,SuperPoint网络对掩码内的特征点进行剔除;如果是汽车,则对比相邻帧的汽车目标检测区域,相邻的两个目标检测区域的非公共部分的特征点保留,公共部分的特征点进行剔除,得到筛选后的静态特征点;
[0009]步骤4:利用SuperPoint网络提取并剔除mask掩码内的关键点和描述子,使用剩余的特征点进行特征匹配,继续执行视觉SLAM的tracking模块,计算相机位姿并建图,完成整个SLAM工作。
[0010]步骤1中,目标检测网络采用YOLOv5网络,基于YOLOv5的目标检测算法流程如下:输入一张608*608*3的RGB图像,将输入图像缩放到网络的输入尺寸,并利用Mosaic进行数据增强,Mosaic随机选取4张图片进行缩放、旋转、排布组成一张新的图片,不仅大大增加图片数量,并且加快了训练速度,达到数据增强的作用;Backbone模块使用CSPDarknet53结构和Focus结构来提取一些通用特征;将提取的通用特征输送到Neck网络中提取更具多样性和鲁棒性的特征,输入到CSP2_X和CBL结构,并经过上采样,和主干网络输出的特征进行contcat,增强了特征融合的能力;最后输出端使用CIoU_LOSS代替之前的GIoU_LOSS作为Bounding Box的损失函数,CIoU公式如下:
[0011][0012][0013][0014]CIou考虑了真实框和预测框的尺寸比例,式中,v∈[0,1]表示预测框长宽和对应的真实框之间比例差值的归一化表示,α表示损失平衡因子。
[0015]步骤2中,步骤2中采用的SuperPoint网络在训练前,
[0016]SuperPoint网络采用自监督的方式进行提取,首先使用规则的几何形状作为数据集训练一个全卷积网络

Base Detector;将未标注的真实图片利用Base Detector网络的检测结果作为伪Ground Truth Keypoint(伪真值关键点),为了伪Ground Truth Keypoint更具鲁棒性和准确性,使用Homographic Adaptation技术(单应技术),将未标注的真实图片在不同尺寸下提取特征,生成伪标签;生成伪标签后,即可将真是未标注图片放进SuperPoint网络中进行训练。在图像输入阶段,采用翻转等数据增强手段。
[0017]SuperPoint网络包括关键点和描述子的共享编码器、关键点解码器、描述子解码器三部分,进一步地,步骤2中,SuperPoint网络检测关键点和描述子过程如下:
[0018]输入一张H*W*3的图像帧,将其灰度化后转化成H*W*1,接着将图像输入到经过改进的更加轻量化共享编码器,经过编码器后,输入图像尺寸转化为H
c
=H/8,W
c
=W/8,以此降低图像尺寸;
[0019]关键点解码器进行子像素卷积操作,通过depth to space过程将输入向量由H/8*W/8*65转化成H*W,最终输出为各个像素点是Keypoint的概率;
[0020]描述子解码器利用卷积网络得到半稠密描述子,接着利用双三次差值得出剩余描
述,最后通过L2归一化得到统一长度(H*W*D)的描述子。
[0021]步骤2中,使用改进SuperPoint的共享编码器,原始SuperPoint编码器使用类VGG6的卷积网络层,但是计算量、训练参数庞大,本专利技术将编码器部分所有卷积改成深度可分离卷积。正常卷积过程如图3所示,设定输入图像尺寸为H*W*3,输出m层feature map,则普通卷积核参数量为3*f*f*m;
[0022]深度可分离卷积(如图4所示)分为逐通道卷积和逐点卷积两个连续过程,逐通道卷积是给每个通道一个单独的卷积核进行卷积,将卷积过程转化到二位平面内进行,最终生成mid feature map(中间特征图),此环节的卷积核参数量为f*f*3,生成的mid feature map进行逐点卷积,使用1*1*3卷积核,具有数据融合的作用,最终也输出m层feature map,此部分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种泊车场景下精确提取视觉SLAM静态特征的方法,其特征在于,包括以下步骤:步骤1:对车前方的停车场场景提取图像,对图像进行预处理后将图像输入到目标检测网络中进行目标检测,得到目标物的检测框;步骤2:筛选步骤1中输出的动态物体检测框,并形成mask掩码,与SuperPoint网络提取的特征点结合使用,剔除动态物体检测框的特征点,并得到关键点和描述子,SuperPoint网络包括关键点和描述子的共享编码器、关键点解码器和描述子解码器,共享编码器用于对图像进行编码得到特征图,关键点解码器用于对获得图像中关键点的坐标,描述子解码器用于获取关键点的描述子向量,其中,对SuperPoint网络的改进包括:将编码器中的所有卷积改成深度可分离卷积,其中,目标检测和特征提取使用多线程并行技术,在特征提取的同时进行目标检测;步骤3:如果mask掩码代表的是行人,SuperPoint网络对掩码内的特征点进行剔除;如果是汽车,则对比相邻帧的汽车目标检测区域,相邻的两个目标检测区域的非公共部分的特征点保留,公共部分的特征点进行剔除,得到筛选后的静态特征点;步骤4:利用SuperPoint网络提取并剔除mask掩码内的关键点和描述子,使用剩余的特征点进行特征匹配,继续执行视觉SLAM的tracking模块,计算相机位姿并建图,完成整个SLAM工作。2.根据权利要求1所述的一种泊车场景下精确提取视觉SLAM静态特征的方法,其特征在于,步骤1中,目标检测网络采用YOLOv5网络,目标检测的过程包括:输入RGB图像,将输入图像缩放到网络的输入尺寸,并进行数据增强;主干网络提取图像特征,生成特征图,Backbone模块使用CSPDarknet53结构和Focus结构来提取通用特征;将提取的通用特征输送到Neck网络中提取更具多样性和鲁棒性的特征,输入到CSP2_X和CBL结构,并经过上采样,和主干网络输出的特征进行拼接;最后输出端使用CIoU_LOSS作为Bounding Box的损失函数。3.根据权利要求1所述的一种泊车场景下精确提取视觉SLAM静态特征的方法,其特征在于,步骤2中采用的SuperPoint网络在训练前,SuperPoint网络采用自监督的方式进行提取,首先使用规则的几何形状作为数据集训练一个全卷积网络;将未标注的真实图片利用所述全卷积网络的检测结果作为伪真值关键点,并使用使用单应技术将未标注的真实图片在不同尺寸下提取特征,生成伪标签;生成伪标签后,即可将真实未标注图片放进SuperPoint网络中进行训练。4.根据权利要求1所述的一种泊车场景下精确提取视觉SLAM静态特征的方法,其特征在于,步骤2中,SuperPoint网络检测关键点和描述子过程如下:输入一张H*W*3的图像帧,将其灰度化后转化成H*W*1,接着将图像输入到经过改进的更加轻量化共享编码器,经过编码器后,输入图像尺寸转化为H
c
=H/8,W
c
=W/8;关键点解码器进行子像素卷积...

【专利技术属性】
技术研发人员:崔博非胡习之李洪涛符茂达
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1