当前位置: 首页 > 专利查询>福州大学专利>正文

一种基于改进Q-learning算法的移动机器人路径规划方法技术

技术编号:36189951 阅读:17 留言:0更新日期:2022-12-31 21:02
本发明专利技术涉及的一种基于改进Q

【技术实现步骤摘要】
一种基于改进Q

learning算法的移动机器人路径规划方法


[0001]本专利技术涉及机器人导航规划
,特别是一种基于改进Q

learning算法的移动机器人路径规划方法。

技术介绍

[0002]随着“货到人”的拣选模式的提出,移动机器人被广泛应用于智能仓中,移动机器人的引入提高了仓储的拣选效率,而路径规划作为移动机器人的核心技术之一,也越来越受到关注。路径规划是指根据移动机器人所处环境,结合最短路径,最短规划时间,路径平滑度等评估标准,规划出一条无碰撞的较优路径。
[0003]路径规划起源于20世纪60年代,常用于全局规划路径搜索的Dijkstra算法,A*算法,人工势场法,以及启发型智能搜索法的蚁群算法,粒子群算法等。但是传统方法操作复杂,求解问题的效率低,此外启发型算法又难以设计和理解。近年来随着强化学习研究的深入,一些学者开始将强化学习应用于路径规划之中。在移动机器人路径规划中应用最广泛的强化学习算法就是Q

learning算法。Q

learning算法是一种时序差分的强化学习算法,Q

learning算法的过程为:移动机器人先在状s下在所有可能的动作中选择动作a并执行,再根据获得动作a的立即奖赏值以及接收当前的状态动作值的估计来评估动作的结果。通过重复所有状态下的所有动作,移动机器人就可以通过判断长期折扣回报来学习总体上的最佳行为。传统Q

learning算法作为一种监督式学习方法,能够使移动机器人利用学习机制,通过与环境的实时交互,规划出一条较优的无碰撞路径,不需要环境模型,在复杂环境中表现优异。但还是存在算法前期探索盲目性大,学习时间长,收敛速度慢,路径平滑度差等问题。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种基于改进Q

learning算法的移动机器人路径规划方法,实现得到最短路径的同时,能够提高算法的收敛速度,以及路径的平滑度。
[0005]为实现上述目的,本专利技术采用如下技术方案:一种基于改进Q

learning算法的移动机器人路径规划方法,包括以下步骤:
[0006]步骤1:采用栅格法对环境地图进行建模,并建立障碍物矩阵;
[0007]步骤2:移动机器人在二维环境中作为质点存在且仅能向4个方向搜索移动,即上、下、左、右;每个栅格的边长均为一个单位,移动机器人单步移动距离均为1个步长;
[0008]步骤3:设计奖励函数并建立奖励矩阵R和Q值表Q;
[0009]步骤4:利用改进的势能场函数初始化Q值表,初始化算法的各类参数,包括迭代次数、ε

探索概率ε、学习效率α、奖励衰减因子γ、行为效用衰减系数p1、探索激励系数p2、权重系数β;
[0010]步骤5:初始化起点,目标点;
[0011]步骤6:开始探索,根据改进的ε探索策略选择执行动作,并获取该执行动作后的及
时奖励值并计算距离函数,更新动作效用函数;
[0012]步骤7:根据所执行的动作,更新Q值表以及动作执行概率,其中Q值表更新公式如下:
[0013]Q(s,a)=Q(s,a)+α[Rt+γmaxaQ(s',a')

Q(s,a)][0014]式中α表示学习效率α∈[0,1],γ表示折扣因子γ∈[0,1],Rt为及时奖励值,s

,a

为下一状态和下一动作;
[0015]动作执行概率的更新公式如下:
[0016][0017]式中:n为执行动作的总数,为行为效用函数;
[0018]步骤8:将执行动作后的位置状态更新为当前位置状态,判断当前位置是否为终点位置并判断是否超出最大步长,否则跳转至步骤6,是则进入步骤9;
[0019]步骤9:记录每次学习的路径,判断是否达到最大迭代次数,若满足,输出最优路径,不满足跳转至步骤5。
[0020]在一较佳的实施例中,所述步骤3中设计的奖励函数为:
[0021][0022]式中:r1,r2都为正数,当智能体碰到障碍物时,奖励值

r1被获取;当智能体到达目标点时,奖励值r2被获取;在智能体到达其他位置时获取的奖励值为0。
[0023]在一较佳的实施例中,所述步骤4中改进的势能场函数为:
[0024][0025]式中:C=L=X+Y,X为环境的水平长度,Y为环境的垂直长度;d
1(s)
,d
2(s)
分别为智能体当前位置与目标点垂直距离和水平距离;d(s)为智能体当前位置与目标点与起始点连线的欧式距离;
[0026]初始化Q值表函数为:
[0027]Q(s,a)=R+γV(S)
[0028]式中,R是初始奖励函数矩阵,γ是奖励衰减因子,V(S)是通过引力场函数初始化所有的状态的价值函数;通过此方法初始后的Q值表,越靠近目标点Q值越大,且目标点有最大Q值,障碍物处Q值为0。
[0029]在一较佳的实施例中,所述步骤6中的改进的ε探索策略具体步骤如下:当随机值,小于贪婪因子时,选择执行动作概率最高的动作;当随机值大于贪婪因子时根据各执行动作的概率更新当前状态转移至下一状态的Q值,选取Q值最高的动作执行,随机值位于0

1之间,其更新公式为:
[0030]T
Q
=Q+β
×
(P1,P2,P
i
)(i∈(1,n))
[0031]式中:T
Q
是根据新的动作执行概率更新后的Q值,β是权重系数,P1,P2,P
i
是每个动作被执行的概率;改进的行为选择策略,使智能体在每个状态下选择执行动作时,利用已经探索的环境信息进行多步探索,综合考虑智能体前后状态与目标点的距离信息与多步执行动作信息,选择“最优”动作执行;
[0032]所述的步骤6中的距离函数为:
[0033][0034]式中:中:分别表示上一状态与当前状态离目标点的距离;
[0035]动作效用函数及其计算规则为:
[0036][0037]式中:p1为衰减系数,p2是探索激励系数,r
t
是即时奖励值;a
i
分别为不同的动作,根据即时奖励值的大小以及连续执行动作是否相同的情况来更新不同动作的E值,当即时奖励值为正且连续三次执行动作相同时,当即时奖励值为正,且连续两次执行相同动作时,其他情况下E值为零。
[0038]在一较佳的实施例中,引入环境势能值作为启发信息对Q值表进行初始化。
[0039]在一较佳的实施例中,利用行为效用函数作为评估执行动作的标准,进而改进ε贪婪策略,结合智能体已经探索的环境信息和所执行动作对路径段平滑度的影响,动态调整智能体每个动作被选择的概率。
[0040]与现有技术相比,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进Q

learning算法的移动机器人路径规划方法,其特征在于,包括以下步骤:步骤1:采用栅格法对环境地图进行建模,并建立障碍物矩阵;步骤2:移动机器人在二维环境中作为质点存在且仅能向4个方向搜索移动,即上、下、左、右;每个栅格的边长均为一个单位,移动机器人单步移动距离均为1个步长;步骤3:设计奖励函数并建立奖励矩阵R和Q值表Q;步骤4:利用改进的势能场函数初始化Q值表,初始化算法的各类参数,包括迭代次数、ε

探索概率ε、学习效率α、奖励衰减因子γ、行为效用衰减系数p1、探索激励系数p2、权重系数β;步骤5:初始化起点,目标点;步骤6:开始探索,根据改进的ε探索策略选择执行动作,并获取该执行动作后的及时奖励值并计算距离函数,更新动作效用函数;步骤7:根据所执行的动作,更新Q值表以及动作执行概率,其中Q值表更新公式如下:Q(s,a)=Q(s,a)+α[Rt+γmaxaQ(s',a')

Q(s,a)]式中α表示学习效率α∈[0,1],γ表示折扣因子γ∈[0,1],Rt为及时奖励值,s

,a

为下一状态和下一动作;动作执行概率的更新公式如下:式中:n为执行动作的总数,为行为效用函数;步骤8:将执行动作后的位置状态更新为当前位置状态,判断当前位置是否为终点位置并判断是否超出最大步长,否则跳转至步骤6,是则进入步骤9;步骤9:记录每次学习的路径,判断是否达到最大迭代次数,若满足,输出最优路径,不满足跳转至步骤5。2.根据权利要求1所述的一种基于改进Q

learning算法的移动机器人路径规划方法,其特征在于:所述步骤3中设计的奖励函数为:式中:r1,r2都为正数,当智能体碰到障碍物时,奖励值

r1被获取;当智能体到达目标点时,奖励值r2被获取;在智能体到达其他位置时获取的奖励值为0。3.根据权利要求1所述的一种基于改进Q

learning算法的移动机器人路径规划方法,其特征在于:所述步骤4中改进的势能场函数为:
式中:C=L=X+Y,X为环境的水平长度,Y为环境的垂直长度;d
1(s)
,d
2(s)
分别为智能体当前位置与目标点垂直距离...

【专利技术属性】
技术研发人员:涂俊翔张立李凡钟礼阳
申请(专利权)人:福州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1