一种基于逆强化学习的室外复杂环境局部路径规划方法技术

技术编号：40011726 阅读：10 留言：0更新日期：2024-01-16 15:22

本发明专利技术涉及一种基于逆强化学习的室外复杂环境局部路径规划方法，主要分为预训练阶段和实时运行阶段；在预训练阶段，采用逆强化学习对构建的局部路径描述模型参数进行整定；在实时运行阶段，实时采集RGB与深度图像，并根据预训练得到的模型参数，建立局部路径优化模型；采用粒子群算法优化计算路径插值点；最后，通过筛选、三次均匀B样条反求控制点，并利用拟合的方法计算得到最优的样条路径解，以保证路径的光滑性和可行性。本发明专利技术具有低成本、适应性强和性能优良的特点，可以解决机器人在室外复杂环境下局部路径规划受地形干扰和噪声影响的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于机器人路径规划，具体地说是涉及一种基于逆强化学习的室外复杂环境局部路径规划方法。

技术介绍

1、在现代机器人
，局部路径规划是指机器人在已知环境中规划一条安全有效的路径，以避开障碍物并实现从起点到目标点的移动。该技术的发展对机器人在各种实际应用中的自主导航和避障至关重要。

2、局部路径规划技术主要包括环境感知、障碍物检测、路径搜索和优化等方面。然而，在室外三维环境下进行局部路径规划相较于室内或平面环境，面临着更多的挑战和难点。首先，室外环境通常包含各种复杂的地形，如草地、斜坡、户外道路、建筑物等，这些地形的不规则性和多变性增加了路径规划的难度。机器人需要能够理解和适应不同地形的特点，以避免可能的碰撞和卡住情况。在实际运行过程中，需要考虑以下几个方面：首先是如何对局部路径描述模型参数实现自动整定，以简化参数调整的步骤。其次是如何同时结合rgb图像和深度图像进行障碍物识别，从而实现安全可靠的局部路径规划。最后是如何确保生成的局部路径规划轨迹具备安全性、快速性和光滑性。

3、在室外三维环境下进行局部路径规划相较于室内或平面环境，面临着更多的挑战和难点，地形的不规则性和多变性增加了路径规划的难度。现有技术中存在机器人在室外复杂环境下干扰性强、噪声大而造成局部路径规划难的问题。

4、为了应对上述挑战，本专利技术提出了一种基于逆强化学习预训练和插值点优化的室外复杂环境局部路径规划方法，旨在提高机器人在不同室外复杂环境中的适应性。该方法具有低成本、适应性强和性能优良的特点，用于解决机器人

技术实现思路

1、为了解决机器人在室外复杂环境下干扰性强、噪声大而造成局部路径规划难的问题，本专利技术提出一种基于逆强化学习的室外复杂环境局部路径规划方法。

2、本专利技术采用的技术方案为：

3、一种室外复杂环境局部路径规划的方法，所述方法分为预训练阶段和实时运行阶段：

4、预训练阶段：采用逆强化学习对构建的局部路径描述模型参数进行整定；

5、局部最优路径规划为实时运行阶段：首先使用rgbd相机获取的彩色图像和深度图像，并将原始图像进行图像处理后分割获取可行域的二值化图像，同时，利用深度图像和二值化图像建立局部路径优化模型；接下来，通过路径插值解初始值映射和路径插值解迭代优化的方法计算路径插值解；然后通过插值点筛选、三次均匀b样条反算和拟合的步骤获得最优路径；最后，根据满足结束条件的判断，如果满足结束条件，则完成整个流程；如果不满足结束条件，则重新从图像采集开始，重新获取rgb图像和深度图像，然后进入下一轮的处理。

6、作为优选，预训练阶段包括下述关键步骤：

7、步骤一：构建室外环境局部路径描述模型；

8、步骤二：障碍物与可行域识别；

9、步骤三：基于逆强化学习的优化函数参数自整定；

10、实时运行阶段包括下述关键步骤：

11、步骤一：路径插值解计算；

12、步骤二：样条路径解计算。

13、为有效解决室外环境下的局部路径规划问题，需要在精确感知环境信息基础上构建局部路径描述模型。作为优选，室外环境局部路径描述模型通过下述方法构建得到：

14、首先，通过路径起始点、插值点和终点，组成一组路径点集pd：

15、pd＝{qs，q1…qi-1，qi，qi+1…qn，qe} (1)

16、式中qs为起始点，qe为终点，qi＝[xi，yi，zi]为插值点；xi和yi分别为图像像素坐标，zi表示对应的深度值；

17、然后，在考虑插值点碰撞间距大小的基础上，引入插值点碰撞惩罚值；结合地形因素的影响，分别引入相对路径长度、路径坡度和路径粗糙度三个指标参数；记f1为插值点碰撞惩罚值，f2为相对路径长度，f3为路径坡度，f4为路径粗糙度，则局部路径描述模型f构建如下：

18、f＝α1f1+α2f2+α3f3+α4f4 (2)

19、式中：α1，α2，α3，α4为模型参数。

20、作为优选，插值点碰撞惩罚值f1依据插值点与不可行区域之间的距离分段设定，如下所示：

21、

22、式中：i为插值点的下标，j为不可行区域的下标，distij表示第i个插值点距离第j个不可行区域的最短长度，s为安全距离，m为不可行区域的数量，n为插值点数量；

23、相对路径长度f2表示为：

24、

25、路径坡度f3表示路径陡峭程度，采用3×3移动窗口，根据插值点i邻域内8个点的深度值z进行计算，如下所示：

26、

27、δx＝((zc+2zf+zi)-(za+2zd+zg))/8sg

28、δy＝((za+2zb+zc)-(zg+2zh+zi))/8sg (5)

29、式中：δx为x方向的梯度；δy为y方向的梯度；sg为栅格单元面积；

30、f4为路径粗糙度，表征路径表面的光滑程度，如下所示：

31、f4＝1/cos(f3) (6)。

32、作为优选，障碍物与可行域识别包括：

33、(1)图像分割；

34、采用pp-liteseg模型对rgb图进行图像分割；该模型采用了多个下采样层和解码器架构fld(feature level decoder)，编码器和解码器之间使用统一注意力融合模块uafm(up-and-across feature module)进行连接；在解码器部分，输入经过上采样和注意力机制am(attention model)计算权重，然后通过加法操作进行连接；注意力机制可以使用空间注意力机制或通道注意力机制的方式进行操作；模型的最后一步通过上采样恢复到原始图像的大小；

35、(2)像素处理；

36、采用腐蚀、膨胀、轮廓提取和图像修正进行二值化处理；首先，通过腐蚀操作减小图像分割后出现的噪声点；腐蚀操作通过收缩像素区域来消除小的噪声点，从而改善图像的质量。接下来，通过膨胀操作扩展不可行区域的范围；膨胀操作通过扩展像素区域来增加不可行区域的大小，使其更加接近真实的障碍物范围。然后，进行轮廓提取，针对障碍物的外轮廓进行提取；通过轮廓提取算法，可以识别出障碍物的整体形状，并忽略内部的轮廓，从而获取更准确的障碍物轮廓信息。最后，进行图像修正操作，主要是为了制作黑白像素地图；这一步骤主要是验证，通过抹去不可行区域内的轮廓信息，在二维地图中得到清晰的可行域和不可行域的划分。这样的图像可以用于路径规划等任务，提供更准确的环境感知和决策依据。

37、作为优选，基于逆强化学习的优化函数参数自整定流程为：

38、(1)在室外环境中，采集图像，通过人机协同的方式引导机器人走一段路径，将记录引导路径的rgb图作为专家轨迹；

39、(2)rgb经过图像分割与本文档来自技高网...

【技术保护点】

1.一种基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，所述方法分为预训练阶段和实时运行阶段，

2.根据权利要求1所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，预训练阶段包括下述关键步骤：

3.根据权利要求2所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，室外环境局部路径描述模型通过下述方法构建得到：

4.根据权利要求3所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，

5.根据权利要求2所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，障碍物与可行域识别包括：

6.根据权利要求2所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，基于逆强化学习的优化函数参数自整定的流程为：

7.根据权利要求2所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，路径插值解计算过程为：首先，通过连接起点和终点形成一条直线，得到最短长度路径L；然后，将最短路径L进行等分，获得垂直于L的多条法向量N；接下来，在每条法向量N上进行随机采样，得到一系列

8.根据权利要求7所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，路径插值解初始值映射过程为：

9.根据权利要求7或8所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，路径插值解迭代优化过程为：

10.根据权利要求2所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，最优路径解计算包括：

...

【技术特征摘要】

1.一种基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，所述方法分为预训练阶段和实时运行阶段，

2.根据权利要求1所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，预训练阶段包括下述关键步骤：

3.根据权利要求2所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，室外环境局部路径描述模型通过下述方法构建得到：

4.根据权利要求3所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，

5.根据权利要求2所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，障碍物与可行域识别包括：

6.根据权利要求2所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，基于逆强化学习的优化函数参数自整定的流程为：

7.根据权利要求2所述基于逆强化学习的室外复杂环境局部路径规划方法，其特征在于，路...

【专利技术属性】
技术研发人员：郑慧，张以涛，介婧，侯北平，陈羽川，
申请(专利权)人：浙江科技学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人