一种基于改进Q-learning算法的移动机器人路径规划方法技术

技术编号：36189951 阅读：17 留言：0更新日期：2022-12-31 21:02

本发明专利技术涉及的一种基于改进Q

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进Q
‑
learning算法的移动机器人路径规划方法

[0001]本专利技术涉及机器人导航规划
，特别是一种基于改进Q
‑
learning算法的移动机器人路径规划方法。

技术介绍

[0002]随着“货到人”的拣选模式的提出，移动机器人被广泛应用于智能仓中，移动机器人的引入提高了仓储的拣选效率，而路径规划作为移动机器人的核心技术之一，也越来越受到关注。路径规划是指根据移动机器人所处环境，结合最短路径，最短规划时间，路径平滑度等评估标准，规划出一条无碰撞的较优路径。
[0003]路径规划起源于20世纪60年代，常用于全局规划路径搜索的Dijkstra算法，A*算法，人工势场法，以及启发型智能搜索法的蚁群算法，粒子群算法等。但是传统方法操作复杂，求解问题的效率低，此外启发型算法又难以设计和理解。近年来随着强化学习研究的深入，一些学者开始将强化学习应用于路径规划之中。在移动机器人路径规划中应用最广泛的强化学习算法就是Q
‑
learning算法。Q
‑
learning算法是一种时序差分的强化学习算法，Q
‑
learning算法的过程为：移动机器人先在状s下在所有可能的动作中选择动作a并执行，再根据获得动作a的立即奖赏值以及接收当前的状态动作值的估计来评估动作的结果。通过重复所有状态下的所有动作，移动机器人就可以通过判断长期折扣回报来学习总体上的最佳行为。传统Q
‑
learning算法作为一种监督式...

【技术保护点】

【技术特征摘要】
1.一种基于改进Q
‑
learning算法的移动机器人路径规划方法，其特征在于，包括以下步骤：步骤1:采用栅格法对环境地图进行建模，并建立障碍物矩阵；步骤2:移动机器人在二维环境中作为质点存在且仅能向4个方向搜索移动，即上、下、左、右；每个栅格的边长均为一个单位，移动机器人单步移动距离均为1个步长；步骤3:设计奖励函数并建立奖励矩阵R和Q值表Q；步骤4:利用改进的势能场函数初始化Q值表，初始化算法的各类参数，包括迭代次数、ε
‑
探索概率ε、学习效率α、奖励衰减因子γ、行为效用衰减系数p1、探索激励系数p2、权重系数β；步骤5:初始化起点，目标点；步骤6:开始探索，根据改进的ε探索策略选择执行动作，并获取该执行动作后的及时奖励值并计算距离函数，更新动作效用函数；步骤7:根据所执行的动作，更新Q值表以及动作执行概率，其中Q值表更新公式如下：Q(s,a)＝Q(s,a)+α[Rt+γmaxaQ(s',a')
‑
Q(s,a)]式中α表示学习效率α∈[0,1]，γ表示折扣因子γ∈[0,1]，Rt为及时奖励值，s
′
，a
′
为下一状态和下一动作；动作执行概率的更新公式如下：式中：n为执行动作的总数，为行为效用函数；步骤8:将执行动作后的位置状态更新为当前位置状态，判断当前位置是否为终点位置并判断是否超出最大步长，否则跳转至步骤6，是则进入步骤9；步骤9:记录每次学习的路径，判断是否达到最大迭代次数，若满足，输出最优路径，不满足跳转至步骤5。2.根据权利要求1所述的一种基于改进Q
‑
learning算法的移动机器人路径规划方法，其特征在于：所述步骤3中设计的奖励函数为：式中：r1，r2都为正数，当智能体碰到障碍物时，奖励值
‑
r1被获取；当智能体到达目标点时，奖励值r2被获取；在智能体到达其他位置时获取的奖励值为0。3.根据权利要求1所述的一种基于改进Q
‑
learning算法的移动机器人路径规划方法，其特征在于：所述步骤4中改进的势能场函数为：
式中:C＝L＝X+Y,X为环境的水平长度，Y为环境的垂直长度；d
1(s)
,d
2(s)
分别为智能体当前位置与目标点垂直距离...

【专利技术属性】
技术研发人员：涂俊翔，张立，李凡，钟礼阳，
申请(专利权)人：福州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人