一种基于深度强化学习的移动机器人路径规划方法技术

技术编号:34146333 阅读:126 留言:0更新日期:2022-07-14 19:02
本发明专利技术提出一种基于深度强化学习的移动机器人路径规划方法,包括以下步骤:基于全卷积残余网络获取深度图像;感知前方区域是否存在障碍物;使用深度强化学习算法规划避开障碍物的路径;驱动机器人行进直到避开障碍物;基于FastSLAM绘制二维的局部环境地图;重复上述步骤直到抵达最终目的地。本方法解决了传统SLAM技术缺乏在复杂的未知环境中无法自主规划路径的问题,同时提出了一种高效构建环境地图的解决方案,且提高了避障行为的准确性、高效性。效性。效性。

【技术实现步骤摘要】
一种基于深度强化学习的移动机器人路径规划方法


[0001]本专利技术涉及移动机器人导航
,特别是一种基于深度强化学习的移动机器人路径规划方法。

技术介绍

[0002]移动机器人在一个未知的复杂环境中实时地进行路径规划和自主地导航是一项非常重要的研究课题。这项任务需要面对三个主要的问题:定位、建图和路径规划。在过去的几十年里,人们对实时定位和SLAM进行了充分的研究,对路径规划问题提出了几种解决方案。现在,移动机器人可以在离线状态下从起点移动到终点,或者可以在不同的场景下自主地采取适当的策略。
[0003]然而,与SLAM相结合的路径规划仍存在技术难点。机器人可以自主地遵循预先编程的路径,或者依靠传统的SLAM方法由用户手动控制。在移动机器人的运动过程中,机器人的运动路径是提前设计好的,从其自身的传感器获得的实时数据仅仅被用于定位,这并不代表机器人能够实时地自主地规划路线。
[0004]另一方面,路径规划的主要目标是避开障碍物。在一个未知的环境中障碍物既有动态的,也有静态的。动态障碍物运动状态是变化的,这意味着在复杂环境中,移动机器人要同时兼顾定位、建图和路径规划的任务。这便要求机器人需要在没有任何外部监督的情况下应对真实环境。
[0005]因此,需要一种具有实时性、高效性,同时保证准确性、通用性的路径规划方法。

技术实现思路

[0006]为解决上述
技术介绍
中提出的问题,本专利技术的目的在于提供一种基于深度强化学习的移动机器人路径规划方法,以保证移动机器人避障的实时性,具备构建环境地图的实时性。
[0007]为实现上述目的,本专利技术采用的技术方案如下:
[0008]本专利技术提供了一种基于深度强化学习的移动机器人路径规划方法,包括以下步骤:
[0009]S101:基于全卷积残余网络(FCRN)获取深度图像,对障碍物进行识别,同时,在本步骤中获取机器人当前位置、环境信息;
[0010]S102:判断前方区域是否存在障碍物,若判定为是,则执行S105,若判定为否,则执行S103;
[0011]S103:如果前方不存在障碍物,那么向前驶达局部目标点,并基于FastSLAM算法确定当前位置;
[0012]S105:如果前方存在障碍物,则基于深度强化学习进行路径规划;
[0013]S106:依据规划输出执行避障策略,并基于FastSLAM算法确定当前位置。
[0014]S107:判断是否到达路径规划后的预期位置,若已到达预期位置,则执行步骤
S104,若未到达预期位置,则执行步骤S106;
[0015]S104:判定是否到达目的地,若未到达目的地,则回到步骤S101,若到达目的地,则结束。
[0016]本专利技术的进一步改进在于,路径规划基于深度强化学习来实现:
[0017]基于强化学习使用以下式1更新Q表;
[0018]Q(s,a;θ)≈Q

(s,a)
ꢀꢀ
(1)
[0019]s:机器人的状态;
[0020]a:机器人的行为;
[0021]θ:常数;
[0022]进一步的,本专利技术使用深度神经网络D3QN模型规划避免障碍的路径,在对复杂特征的提取中,高维和连续的情况下具有更高的性能。
[0023]进一步的,Q函数定义如下式2所示:
[0024]Q
π
(s,a)=V
π
(s)+A
π
(s,a)
ꢀꢀꢀ
(2)
[0025]式中:
[0026]V
π
(s):状态值函数;
[0027]A
π
(s,a):优势函数,显示当前行动和平均绩效之间的差异,如果当前行动优于平均绩效,则该值为正,反之,该值为负。
[0028]按照优势函数的定义,优势函数的期望为0,因此,我们对优势函数添加限制,如下式3所示:
[0029][0030]本专利技术中改进之处在于,通过对Q函数进行分解,得到状态值估计和与状态无关的运动优势函数,在不改变强化学习算法的情况下概括了动作之间的学习;
[0031]本专利技术中改进之处在于,通过从每个优势函数值中减去平均值,保证期望值为0的约束,进而增加了采集输出的稳定性;
[0032]本专利技术的进一步改进在于,在基于深度强化学习的路径规划中,本专利技术将机器人的行为定义为由十种基本操作组成;
[0033]在复杂环境中,机器人的运动形式包括线速度和角速度;
[0034]本专利技术的进一步改进在于,移动机器人的动作状态通过设定的线速度和角速度产生十种不同的行为,这十种行为不仅帮助机器人有效地完成路径规划任务,而且还提高了深度强化学习算法的运行效率;
[0035]其中:
[0036]可选的,线速度被设定为υ或角速度被设定为
[0037]本专利技术的进一步改进在于,采用以下策略使机器人逐渐接近目标:
[0038]基于深度强化学习,当机器人遇到障碍物时,它将受到惩罚。当机器人到达目标时,它就会得到奖励。机器人在接近目标的同时,在学习过程中消除障碍,最终完成路径规划任务。
[0039]本专利技术的进一步改进在于,奖励函数是由外部环境和机器人这个主观对象定义的。奖励函数的定义对学习速度和质量起着至关重要的作用。
[0040]本专利技术的进一步改进在于,用离散形式控制线速度和角速度的方法实现机器人的动作,对深度强化学习的奖励函数的定义如下式4所示:
[0041]r=v*cos(ω)*dt
ꢀꢀꢀ
(4)
[0042]式中:
[0043]r:机器人运动的线速度;
[0044]ω:机器人运动的角速度;
[0045]dt:每次训练的循环时间;
[0046]进一步的,奖励函数在应用中的具体策略为:
[0047]一个总的事件中的奖励由其中每个小步骤的奖励累加得到;
[0048]如果检测到碰撞就会立即终止事件,并且会给予适当的的额外惩罚;
[0049]如果没有检测到碰撞,事件就会一直进行,直到所有步骤完成;
[0050]事件结束时不会有惩罚。
[0051]与现有技术相比,本专利技术有如下优点:
[0052]本专利技术是基于深度强化学习的移动机器人路径规划方法,解决了传统SLAM无法自主导航的问题,在不改变强化学习算法的情况下推广到了机器人的运动层面,提高了路径规划的实时性、环境适应性。本专利技术针对移动机器人的特点,对深度强化学习进行了改进,即定义了新的奖励函数,同时通过FastSLAM实时构建出二维环境地图,以达到最优路径。
[0053]本专利技术中,将机器人的线速度和角速度以及训练时间综合考虑,定义得到奖励函数,奖励函数的优劣对于本专利技术中的深度强化学习的速度和质量具有至关重要的作用,本专利技术设计适合于移动机器人路径规划的奖励函数,提高了训练的速度和准确性。
附图说明<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的移动机器人路径规划方法,其特征在于,包括以下步骤:获取机器人当前位置、环境信息;基于全卷积残余网络获取深度图像,对障碍物进行识别;如果判定前方不存在障碍物,那么向前驶达局部目标地,并基于FastSLAM算法确定当前位置;如果判定前方存在障碍物,则基于深度强化学习进行路径规划,依据规划输出执行避障策略,并基于FastSLAM算法确定当前位置。重复执行该步骤,直到障碍物成功避过;检测当前位置是否为最终目的地,若当前位置不是最终目的地则继续确定机器人局部目标点,重复前述所有步骤,直到机器人达到最终目的地。2.根据权利要求1所述的基于深度强化学习的移动机器人路径规划方法,其特征在于,初始化最初机器人位置为坐标原点;其后每一次的环境地图更新都建立在该时间点以前的基础之上。3.根据权利要求1所述的基于深度强化学习的移动机器人路径规划方法,其特征在于,实时检测障碍物;所述检测障碍物包括动态障碍物和静态障碍物。4.根据权利要求3所述的基于深度强化学习的移动机器人路径规划方法,其特征在...

【专利技术属性】
技术研发人员:王秋辰张惕远丁超林祺宋子洋
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1