一种机器人上下楼梯运动的场景识别方法及系统技术方案

技术编号：38340341 阅读：18 留言：0更新日期：2023-08-02 09:20

本发明专利技术提供了一种机器人上下楼梯运动的场景识别方法及系统，该方法通过对YOLOv5网络进行轻量化改进，使用RepVGG单元作为主干特征提取网络，并将其池化层修改为BasicRFB_s增大感受野。同时，本发明专利技术引入了深度相机获取楼梯点云信息，对点云进行基于法向量差异的分割，对于上下楼进行进一步识别判断。该方法可提高上下楼梯的识别准确率，具有较高的实用性，为机器人下一运动的状态切换提供基础。机器人下一运动的状态切换提供基础。机器人下一运动的状态切换提供基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种机器人上下楼梯运动的场景识别方法及系统

[0001]本专利技术涉及一种机器人上下楼梯运动的场景识别方法及系统，属于机器视觉

技术介绍

[0002]目前，在移动机器人的上下楼梯运动中，对上下楼梯的感知是一大挑战。楼梯是最常见的人造场景之一，对于移动机器人来说是一种相对复杂的场景，目前现有的方式大多数基于接触式传感器反馈、2D视觉、3D视觉等方式，而这些方式存在识别准确率低、运行速度慢等问题。针对这一系列问题，需要引入一种合适的方法来提升机器人上下楼梯运动过程中的场景识别准确率。

技术实现思路

[0003]本专利技术的目的在于克服现有技术中的不足，提供一种机器人上下楼梯运动的场景识别方法及系统，该方法能够改善目前场景识别的准确率低、运行速度慢等问题，提升了场景识别的实时性。
[0004]本专利技术采用如下技术方案，
[0005]一种机器人上下楼梯运动的场景识别方法，包括：
[0006]获取机器人上下楼梯的场景视频流；
[0007]对所述场景视频流进行采集，得到前帧RGB图像和后帧RGB图像，以及，对所述场景视频流进行点云采集；
[0008]分别对所述前帧RGB图像和后帧RGB图像采用改进的YOLOv5网络进行上下楼梯识别；
[0009]对所采集的点云采用分割算法进行上下楼梯识别；
[0010]将所述前帧RGB图像和后帧RGB图像的上下楼梯识别结果进行比对，如果识别结果一致，且与所述采用分割算法的上下楼梯识别结果一致，则输出识别结果。r/>[0011]进一步的，所述方法，还包括：将所述前帧RGB图像和后帧RGB图像转换为640*640*3大小，作为改进的YOLOv5网络的输入。
[0012]进一步的，若所述前帧RGB图像和后帧RGB图像的上下楼梯识别结果不一致，则重新获取机器人上下楼梯的场景视频流。
[0013]进一步的，所述改进的YOLOv5网络包括主干网络和颈部网络Neck；
[0014]所述主干网络包括一个CBL模块，3组由RepVGG网络和C3卷积层构成的结构，一组RepVGG网络和包含注意力SE Block的C3SE模块，以及池化层；
[0015]所述颈部网络Neck包括CBL卷积层，C3卷积层，C_3卷积层和Concat层。
[0016]进一步的，所述池化层采用BasicRFB_s。
[0017]进一步的，所述BasicRFB_s中第一次卷积后添加C3SE注意力机制。
[0018]进一步的，所述采用改进的YOLOv5网络进行上下楼梯识别，包括：
[0019]输入图像经过三次RepVGG和C3结构操作后，输出特征图尺寸分别为160*160*64、80*80*128、40*40*256，然后经过一次RepVGG结构，输出20*20*512的特征图，经过C3SE操作后输出20*20*512的特征图进入池化层；
[0020]由池化层输入的20*20*512的特征图经过CBL卷积层得到的20*20*256的特征图，经过Upsample上采样，输出40*40*256的特征图并与主干网络中第三个C3输出的40*40*256的特征图进行ADD操作得到大小为40*40*256特征图，将得到的特征图依次进行C_3、CBL、Upsample操作后得到大小为80*80*128特征图，再与主干网络中第二个C3模块输出的特征图进行ADD相加得到大小为80*80*128特征图，再经过一次C_3结构输出80*80*128的特征图到检测头，在后续的操作中，第一次检测头的输出结果经过一次CBL操作和颈部网络Neck第一次C_3输出结果进行ADD相加输入到下一层C_3结构中，由C_3输出一个特征图尺寸为40*40*128的检测头结果，该结果经过CBL操作和颈部网络Neck第一个CBL输出的结果进行Concat结合输出一个20*20*384的特征图，经过C_3操作后得到第三个20*20*128的检测头。
[0021]进一步的，对所述场景视频流进行点云采集，并对所采集的点云采用分割算法进行上下楼梯识别，包括：
[0022]对所述场景视频流进行点云采集，并得到各点云的法向量；
[0023]对所述法向量进行预处理后，采用聚类算法得到方向垂直于楼梯的平行面和垂直面的两类结果；
[0024]若垂直于楼梯的垂直面的点云占比大于预设阈值T1，且垂直于楼梯的水平面的点云占比小于预设阈值T2，则识别为上楼梯，反之识别为下楼梯。
[0025]进一步的，所述预设阈值T1和T2根据相机与机器人安装视角设置。
[0026]本专利技术还提供一种机器人上下楼梯运动的场景识别系统，用于实现前述的机器人上下楼梯运动的场景识别方法，所述系统包括：
[0027]RGB
‑
D传感器，安装于机器人顶部或视野相对开阔的位置，用于获取机器人上下楼梯的场景视频流，对所获取的场景视频流进行采集，得到前帧RGB图像和后帧RGB图像；以及对获取的场景视频流进行点云采集；
[0028]第一识别模块，用于分别对所述前帧RGB图像和后帧RGB图像采用改进的YOLOv5网络进行上下楼梯识别；
[0029]第二识别模块，用于对所采集的点云采用分割算法进行上下楼梯识别；
[0030]输出模块，用于将所述前帧RGB图像和后帧RGB图像的上下楼梯识别结果进行比对，如果识别结果一致，且与所述采用分割算法的上下楼梯识别结果一致，则输出识别结果。
[0031]与现有技术相比，本专利技术所达到的有益效果：
[0032]本专利技术提出一种机器人上下楼梯运动的场景识别方法，改进了YOLOv5网络的结构，使其达到了轻量化，提升了场景识别的实时性，并且引入了点云信息对于场景识别结果进行进一步判断。该方法可解决机器人上下楼运动过程中的场景识别准确率低、处理速度慢等缺点，最大限度减少了深度学习过程造成的场景识别准确率低的问题，该方法相比如单独使用传感器反馈、2D视觉或3D视觉，更能满足实际工程中的使用需求。
Block的C3SE模块，主干网络数据处理过程如下：
[0056]输入图像经过三次RepVGG和C3结构操作后，输出特征图尺寸分别为160*160*64、80*80*128、40*40*256，然后经过一次RepVGG结构，输出20*20*512的特征图，经过C3SE操作后输出20*20*512的特征图进入池化层。
[0057]改进的YOLOv5的颈部网络Neck的数据处理过程如下：
[0058]经过主干网络的特征输入到颈部网络Neck，在该部分输入池化后的图像进行卷积、上采样等。由池化层输入的20*20*512的特征图经过CBL卷积层得到的20*20*256的特征图，经过Upsample上采样，图像尺寸扩大一倍，通道数不变，输出40*40*256的特征图并与主干网络中第三个C3输出的40*40*256的特征图进行ADD操作进行特征图相加得到大小为40*40*256特征图，将得到的特征图本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种机器人上下楼梯运动的场景识别方法，其特征在于，包括：获取机器人上下楼梯的场景视频流；对所述场景视频流进行采集，得到前帧RGB图像和后帧RGB图像，以及，对所述场景视频流进行点云采集；分别对所述前帧RGB图像和后帧RGB图像采用改进的YOLOv5网络进行上下楼梯识别；对所采集的点云采用分割算法进行上下楼梯识别；将所述前帧RGB图像和后帧RGB图像的上下楼梯识别结果进行比对，如果识别结果一致，且与所述采用分割算法的上下楼梯识别结果一致，则输出识别结果。2.根据权利要求1所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述方法，还包括：将所述前帧RGB图像和后帧RGB图像转换为640*640*3大小，作为改进的YOLOv5网络的输入。3.根据权利要求1所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，若所述前帧RGB图像和后帧RGB图像的上下楼梯识别结果不一致，则重新获取机器人上下楼梯的场景视频流。4.根据权利要求1所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述改进的YOLOv5网络包括主干网络和颈部网络Neck；所述主干网络包括一个CBL模块，3组由RepVGG网络和C3卷积层构成的结构，一组RepVGG网络和包含注意力SE Block的C3SE模块，以及池化层；所述颈部网络Neck包括CBL卷积层，C3卷积层，C_3卷积层和Concat层。5.根据权利要求4所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述池化层采用BasicRFB_s。6.根据权利要求5所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述BasicRFB_s中第一次卷积后添加C3SE注意力机制。7.根据权利要求6所述的一种机器人上下楼梯运动的场景识别方法，其特征在于，所述采用改进的YOLOv5网络进行上下楼梯识别，包括：输入图像经过三次RepVGG和C3结构操作后，输出特征图尺寸分别为160*160*64、80*80*128、40*40*256，然后经过一次RepVGG结构，输出20*20*512的特征图，经过C3SE操作后输出20*20*512的特征图进入池化层；由池化层输入的20*20*512的特征图经过CBL卷积层得到的20*20*256的特征图，经过Upsample上采样，输出40*40*256的特征图并与...

【专利技术属性】
技术研发人员：谭治英，孔伟丰，范文博，季琰，陶旭，李旭，徐孝彬，骆敏舟，
申请(专利权)人：河海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人