一种室内动态场景下基于目标检测的语义视觉SLAM定位方法技术

技术编号:33948749 阅读:66 留言:0更新日期:2022-06-29 21:57
本发明专利技术公开了一种室内动态场景下基于目标检测的语义视觉SLAM定位方法,属于人工智能与机器人和计算机视觉领域。本发明专利技术使用深度相机采集图像。首先对相机采集的图像序列利用YOLOv5s目标检测网络进行物体识别,以识别出的动态物体为基础划定图像帧的动态区域,将动态区域内的特征点剔除;同时利用对极几何特性的几何约束配合目标检测网络进一步检查特征点是否为动态特征点;结合局部建图与闭环检测模块构成完整的语义视觉SLAM系统。经过实验证明,本发明专利技术显著降低了动态环境下SLAM系统的轨迹误差,同时保证系统可以实时运行,有效平衡了SLAM系统位姿估计的准确性、鲁棒性和快速性。性。性。

【技术实现步骤摘要】
一种室内动态场景下基于目标检测的语义视觉SLAM定位方法


[0001]本专利技术属于人工智能与机器人和计算机视觉领域,具体涉及一种室内动态 场景下基于目标检测的语义视觉SLAM定位方法。

技术介绍

[0002]同步定位与地图构建(simultaneous localization and mapping,SLAM)是一种 应用在移动机器人上的技术,可使机器人在无环境先验信息的前提下,同时估 计自身运动状态并建立周围的环境模型。SLAM技术是人工智能与机器人以及 计算机视觉领域的重要研究内容,在室内服务机器人、自动驾驶等方面应用广 泛。针对室内动态场景下的定位与建图是SLAM技术研究的一个热门方向。
[0003]目前大多数视觉SLAM方法基于静态环境假设,而绝大多数现实环境中都 会含有动态物体,所以传统的SLAM方法很容易发生特征点跟踪错误导致特征 匹配的准确性降低,使位姿估计的误差不断累积。所以传统的SLAM方法在动 态环境下精度低、鲁棒性差。
[0004]现有应对动态环境的SLAM方法主要依赖特征点的几何信息,例如将前一 帧的特征点投影到当前帧,计算特征跟踪的重投影误差,如果误差很大,则被 认为是动态特征点;或者通过地图点之间的相关性来区分特征点的动静状态。 这类方法因为仅仅使用了几何信息,忽略了场景中物体的语义信息,所以无法 对周围环境有更高级的理解,从而导致系统在环境中的定位精度不够高。另一 类方法则主要依赖环境的语义信息,预先训练好用于识别环境中物体的神经网 络,通过目标检测或者语义分割获取动态物体的语义信息,剔除动态物体上提 取的特征点,但这类方法无法有效去除潜在动态物体上的不稳定特征点。
[0005]检测动态特征点是构建鲁棒视觉SLAM系统的关键步骤,动态特征点被准 确检测并剔除,才可以保证用于位姿估计的特征点均为静态特征点。由于室内 动态场景的构成十分复杂,可以通过一种先进的目标检测方法来检测环境中的 各个物体,获得动态对象的类别、位置及对应的类别概率,并通过对极几何约 束算法进一步识别潜在的动态对象,综合使用语义信息和几何信息来检测复杂 环境中的动态特征点,上述方法可显著提高检测的准确性并且保证整体SLAM 系统可以实时运行。

技术实现思路

[0006]本专利技术的目的在于改善现有方法的缺陷,采用一种室内动态场景下基于目 标检测的语义视觉SLAM定位方法。该方法将目标检测技术与对极几何约束算 法相结合,首先使用YOLOv5s网络对图像中各先验物体进行语义识别,划分出 图像的动静区域,同时使用光流法跟踪提取到的特征点,然后通过对极几何约 束算法检测出其中的动态特征点。YOLOv5s目标检测算法可有效规避几何约束 对物体边缘特征点判断能力弱的缺点;同时几何约束也可以对YOLOv5s无法检 测到的潜在动态物体上所包含的动态特征点予以剔除,二者相互补充。保证用 于特征匹配和位姿估计环节的特征点均为静态特征点。本专利技术可以显著降低 SLAM系统的轨迹误差,同时也保证了系统的运行速度,可有效平衡好SLAM 系统位
姿估计的准确性、鲁棒性和快速性。
[0007]本专利技术提供了一种室内动态场景下基于目标检测的语义视觉SLAM定位方 法,包括:
[0008]本专利技术采用深度相机作为图像采集装置。
[0009](1)对相机采集的图像序列利用目标检测网络将图像中的物体划分成静态物体 和动态物体,以动态物体所属的锚框作为图像的动态区域;
[0010]1.1)搭建YOLOv5s目标检测网络,该网络属单阶段的目标检测网络,分为 输入端、Backbone、Neck、输出端共4部分,该网络可进行自适应锚框计算和 自适应图片缩放,对不同大小的图片进行同一标准地缩放,标准的608*608*3 图像会输入Focus结构,进行切片操作,变为304*304*12规格的特征图,经32 个卷积核的卷积操作,最终变为304*304*32规格的特征图;在Backbone、Neck 两个部分,YOLOv5s使用不同的CSP(Cross Stage Partial)跨阶段局部结构, 将特征图拆分,一部分用于卷积操作,一部分用于和以前的卷积结果关联;在 Neck部分,利用FPN(Feature PyramidNetwork)特征金字塔网络传递高层的语义 特征,利用PAN(PathAggregationNetwork)路径聚合网络传递底层的定位特征; 在输出端,YOLOv5s使用CIOU_Loss作为边界框预测的损失函数,CIOU_Loss 的计算公式为:
[0011]CIOU_Loss=1

CIOU
ꢀꢀꢀꢀꢀꢀ
(1)
[0012][0013][0014]其中IOU代表预测框和真实框的交并比,Distance_2代表两个中心点的欧氏距 离,Distance_C代表识别对象最小外接矩形的对角线距离。
[0015]1.2)利用MS COCO数据集作为训练样本对YOLOv5s网络进行训练。MSCOCO数据集包含80种不同的物体类别,这足以包含室内环境中绝大多数的常 见物体。这些物体类别可分为三种:第一种是动态置信度高的移动对象,如人、 猫、狗等;第二种是静态置信度高的对象或潜在动态的移动对象,如椅子、书、 杯子、笔记本电脑等,第三种是绝对静态物体,如桌子、冰箱等。
[0016]1.2.1)首先进行图片分类训练,使用默认的训练步长、批量大小和学习率。 利用训练数据集训练YOLOv5s网络的前20个卷积层、1个池化层和1个全连接 层,训练图像分辨率。
[0017]1.2.2)利用预训练得到的网络参数初始化YOLOv5s网络的前20个卷积层, 然后进行整体模型训练,提高图像分辨率。
[0018]训练结束后,进行检测效果的测试,到达满意程度即可用于完成SLAM系 统的语义分割任务。
[0019]1.3)YOLOv5s网络为单阶段的目标检测网络,输入RGB图像,YOLOv5s 网络均匀地将图像平均分割,分割后的每个图像块独立进行物体检测并生成对 应的检测框,每个检测框含5个参数(x,y,w,h,c),其中(x,y)代表检测框中心坐标, (w,h)代表检测框同图像整体的宽度和高度比值,c代表检测框预测物体类别的置 信度,这代表了检测框预测的准确程
度,最终识别的物体类别概率就是在该置 信度下产生的条件概率。YOLOv5s网络在图像的不同位置进行密集抽样,抽样 时可以采用不同尺度和长宽比,然后利用CNN提取特征,直接进行分类与回 归,输出所有先验物体的类别信息。在筛选多目标框时使用非极大值抑制获得 置信度最高的边界框。对于动态物体,会去除框内所有特征点;对于静态物体, 检测框内的特征点全部保留;对于潜在动态物体上提取的特征点需要配合对极 几何约束综合检测。
[0020](2)由于目标检测算法无法去除潜在动态物体所包含的特征点,因此需要利用 对极几何约束进一步检查这些来自潜在动态物体的特征点是否属于动态特征点, 具体步骤如下:
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种室内动态场景下基于目标检测的语义视觉SLAM定位方法,该方法以深度相机构成的硬件平台为基础,其特征在于:使用YOLOv5s网络对图像中各先验物体进行语义识别,划分出图像的动静区域,同时使用光流法跟踪提取到的特征点,然后通过对极几何约束算法检测出其中的动态特征点;具体的流程如下:(1)对深度相机采集的图像序列利用YOLOv5s目标检测网络获取图像帧中所有先验物体的边界框及其对应的分类概率,划分出所有的动态物体,剔除一切动态物体所包含的特征点;1.1)搭建YOLOv5s目标检测网络,利用YOLOv5s目标检测网络识别图像帧中的各个物体;1.2)将MS COCO数据集作为样本,训练YOLOv5s目标检测网络,识别的物体类别分为三种:第一种是动态置信度高的移动对象;第二种是静态置信度高的对象或潜在动态的移动对象,第三种是绝对静态物体;1.3)将标准大小的RGB图像输入YOLOv5s目标检测网络,得到该图像中所有被训练过的物体名称、位置及其分类概率;对于动态物体,会去除框内所有特征点;对于静态物体,检测框内的特征点全部保留;对于潜在动态物体上提取的特征点需要配合对极几何约束综合检测;(2)由于目标检测算法无法去除潜在动态物体所包含的特征点,利用光流法和对极几何约束算法配合目标检测网络综合判断特征点是否为动态特征点;2.1)对深度相机采集的图像序列提取ORB...

【专利技术属性】
技术研发人员:阮晓钢周晨黄静许润玉林晨亮李宇凡
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1