当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于强化学习和启发式搜索的路径规划方法及系统技术方案

技术编号:26257430 阅读:73 留言:0更新日期:2020-11-06 17:49
本发明专利技术公开了一种基于强化学习和启发式搜索的路径规划方法及系统。该方法包括:S1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;S2:通过Dyna‑Q算法对所述环境模型进行采样更新,对每个状态‑动作对进行评估并确定目标点;S3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;S4:对所述初始路径中每个状态‑动作对进行赋值;S5:根据每个状态‑动作对的评估值以及赋值,确定最优动作;S6:根据最优动作确定最优路径。本发明专利技术能够有效的加速强化学习的收敛速度,同时克服启发式搜索规划出次最优解等问题,从而更加快速、准确的规划路径。

【技术实现步骤摘要】
一种基于强化学习和启发式搜索的路径规划方法及系统
本专利技术涉及路径规划领域,特别是涉及一种基于强化学习和启发式搜索的路径规划方法及系统。
技术介绍
路径规划是指从起始点到目标点规划一条可行的无障碍路径。传统的路径规划算法分为三类:基于势场的算法,基于采样的算法和启发式搜索算法。最经典的势场算法是由Khatib提出的人工势场法,它假定在一个构型空间中,目标点产生引力场,障碍物产生斥力场,通过合理控制智能体的行走。当斥力过高时,智能体可能会被困在角落,停滞不前。在此基础上Orozco-Rosas等人提出将膜计算与遗传算法和人工势场法相结合,寻找参数来生成可行且安全的路径。基于采样的路径规划算法主要是由LaValle等人提出的快速探索随机树(RRTs)算法,该算法允许移动机器人通过在未知环境中随机采样的方法进行路径规划,但是规划出的路径可能是不平滑的甚至是不可行的。Karaman和Frazzoli对RRT算法进行了改进,提出了RRT*算法。Jeong等人利用三角不等式,改进ChooseParent和Rewire过程,提出了Quick-RRT*算法。本文档来自技高网...

【技术保护点】
1.一种基于强化学习和启发式搜索的路径规划方法,其特征在于,包括:/nS1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;/nS2:通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;/nS3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;/nS4:对所述初始路径中每个状态-动作对进行赋值;/nS5:根据每个状态-动作对的评估值以及赋值,确定最优动作;/nS6:根据最优动作确定最优路径。/n

【技术特征摘要】
1.一种基于强化学习和启发式搜索的路径规划方法,其特征在于,包括:
S1:在马尔科夫决策过程框架下建立环境模型,所述环境模型的状态空间为S,动作空间为A,奖励函数为R,转移概率函数为P;
S2:通过Dyna-Q算法对所述环境模型进行采样更新,对每个状态-动作对进行评估并确定目标点;
S3:基于所述目标点,通过A*算法分别计算当前位置与起始点和所述目标点的欧式距离,确定初始路径;
S4:对所述初始路径中每个状态-动作对进行赋值;
S5:根据每个状态-动作对的评估值以及赋值,确定最优动作;
S6:根据最优动作确定最优路径。


2.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S1具体包括:
S11:利用环境的坐标对状态S进行表征。
S12:智能体所能行走的方向表征为环境的动作空间A;行走方向包括上、下、左以及右。
S13:当智能体碰到障碍物时,获得的奖励为-100,当到达目标点时,获得的奖励为1000,其余情况均为-1。
S14:当智能体在同一状态采取同一动作时,进入的状态是唯一的,所以转移概率函数P=1。


3.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在于,所述步骤S2具体包括:
S21:当时间t时,状态为st∈S下,根据上置信边界策略选择动作at∈A,进入下一时刻状态st+1∈S,并得到奖励rt+1;所述上置信边界策略为:



其中,Q(st,at)为在状态s下动作a的评估值,c为比例因子,Nt(a)表示在状态s下动作a被访问的次数,t表示从开始到现在所经历的时间步。
S22:采样得到的经验序列<st,at,st+1,at+1>,通过状态-动作对函数进行更新,公式为:



其中,α∈(0,1)表示学习率,γ∈(0,1)表示折损因子;
S23:采样得到的<st,at,st+1,at+1>存储到模型M(S,A)中,同时随机对模型M(S,A)中的元素进行抽取并利用状态-动作对进行训练。


4.根据权利要求1所述的基于强化学习和启发式搜索的路径规划方法,其特征在...

【专利技术属性】
技术研发人员:张秀玲康学楠李金祥
申请(专利权)人:燕山大学
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1