一种基于蝙蝠算法与强化学习的路径规划方法技术

技术编号:22974258 阅读:34 留言:0更新日期:2019-12-31 23:15
本发明专利技术属于智能机器人技术领域,具体涉及机器人的路径规划方法。基于蝙蝠算法与强化学习的路径规划方法,包括:确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态‑动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;从Q表中选取最优的状态‑动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。本发明专利技术的基于蝙蝠算法与强化学习的路径规划方法,将蝙蝠算法和强化学习相结合,确保在规避障碍物的前提下更加有效、快速的实现智能机器人路径自主规划。

A path planning method based on bat algorithm and reinforcement learning

【技术实现步骤摘要】
一种基于蝙蝠算法与强化学习的路径规划方法
本专利技术属于智能机器人
,具体涉及机器人的路径规划方法。
技术介绍
移动机器人是靠自身动力和控制能力来实现各种功能的一种机器,具有通用性和智能性的特点。工业机器人被逐步应用于实际的工业生产中,代替工人进行各种操作任务,如搬运、焊接、装配等,将工人从繁琐重复的工作中解放出来。由于工业机器人的批量使用,使生产流程工序自动化、简洁化,显著降低了生产成本,提高了生产利润。随着机器人的应用领域不断扩大,作业环境日益复杂化,机器人的自主导航成为亟待解决的首要问题。机器人的自主导航主要分为两方面技术:机器人路径规划和路径跟踪。路径规划问题是寻找一条从初始位姿到最终位姿的路径,并满足最优,使得移动安保巡逻机器人在通过路径时不与任何静止或动态障碍物发生碰撞,这是移动机器人最基本的条件。也就是说,做好路径规划应从这3个方面出发:(1)明确起始位置及终点;(2)避开障碍物;(3)尽可能做到路径上的优化。一般的连续域范围内路径规划问题,其一般步骤主要包括环境建模、路径搜索和路径平滑三个环节。传统的路径规划算法有人工势场法、模拟退火算法、模糊逻辑算法和禁忌搜索算法等。这些传统的路径规划算法在某种程度上收敛速度慢,在概率上完备但并不完美。专利CN201310488139是一种纯路径规划类的算法,该算法是A*算法的改进,主要针对open表中节点多、耗时多的问题进行改进,主要应用与机器人二维三维空间的快速路径规划。该专利主要从路径规划方向出发,所以得出的路径有可能离障碍物很近,从而对于实际半径宽度的机器人可能在行走的过程中就会触碰障碍物,导致行走受阻。专利CN201510028275是一种采用加入淘汰机制的鱼群算法针对具有神经网络结构的控制器对移动机器人进行控制,并凭借神经网络的泛化性能来学习到避障和目的地的行为的算法。该算法基于机器学习理论。但学习的过程是一个训练的过程,且需要很多的数据进行测试。针对目前已有的研究,解决实际问题时,在机器人路径规划的合理性、避障的可靠性和路径跟踪控制的实时性、准确性等方面还存在较大的提升空间。
技术实现思路
本专利技术目的在于解决现有技术中存在的问题,提供基于蝙蝠算法和强化学习相结合的机器人自主路径规划算法。本专利技术解决其技术问题采用的技术手段是:基于蝙蝠算法与强化学习的路径规划方法,包括:确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态-动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;从Q表中选取最优的状态-动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。作为本专利技术的一种优选方式,所述蝙蝠的初始状态和最终状态的算法过程为:Step1:种群初始化;Step2:初始化蝙蝠的位置xi,并根据适应度函数值的优劣寻找当前最优解x*;Step3:开始主循环,生成均匀分布的随机数rand,若rand<ri,则按照下列公式分别更新蝙蝠的频率、速度和位置;fi=fmin+(fmax-fmin)β,(4)其中:β:β∈[0,1]是均匀分布的随机数。fi:第i只蝙蝠的搜索脉冲频率,fi∈[fmin,fmax];分别表示第t代和第t-1代第i只蝙蝠的速度。分别表示第t代和第t-1代第i只蝙蝠的状态。x*:当前所有蝙蝠的最优状态;若rand≥ri,则根据公式(4)进行局部搜索,产生一个新解xnew,并对该解进行越界处理;xnew=xold+∈Lt,(7)其中:∈∈[-1,1]是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体;Step4:生成均匀分布的随机数rand,若rand<Li且fit(xnew)<fit(x*),则接受Step3产生的新解xnew,将蝙蝠位置进行更新,同时根据公式(5)和公式(6)对脉冲响度和脉冲发射率进行调整;其中:α称为响度衰减系数,γ称为脉冲发射率增强系数;对于任意的0<α<1和γ>0,当迭代次数t→+∞时,响度脉冲发射率ri0是初始脉冲发射率;Step5:更新整个流程的最优解,判断是否到达终止条件,是则输出最优解,否则循环至Step3。作为本专利技术的进一步改进,所述的适应度函数为:F=F1+penalty,(2)其中:(x,y):当前时刻t位置(x′,y′):下一时刻t+1位置(xg,yg):目标位置F1:路径规划中下一时刻位置(x′,y′)与当前时刻位置(x,y)和目标位置(xg,yg)的欧式距离之和最小,即实现路径最短;penalty:路径规划中不能接触环境中的障碍物(xi,yi),i∈{1,2,…n},其中n为障碍物的数量,否则添加一个大的惩罚项,即实现避障目标。作为本专利技术的进一步改进,所述对动作进行强化学习训练的算法过程为:在动作集中选取最优动作进行即时奖励;所述即时奖励设置为连续迭代中相邻蝙蝠适应度值之间的差值,表达式为:re(Ri(t),<α′,γ′>)=fit(Xi(t+1))-fit(Xi(t))=Ri(t+1)-Ri(t)(12)其中:<α′,γ′>为在<α,γ>集(动作集)中选取的最优动作;re(Ri(t),<α′,γ′>)为<α′,γ′>作用于环境时得到即时奖励;X(t)定义为蝙蝠的位置,Xi(t)为当前蝙蝠的位置,Xi(t+1)为新蝙蝠的位置,即下一蝙蝠的位置;R(t)定义为强化学习的状态,即蝙蝠在位置X(t)时的适应度函数值,Ri(t)为当前状态,Ri(t+1)为下一状态;通过公式(11)不断更新Q(Ri(t),<α′,γ′>),得到最优状态-动作对Q表:其中:Q(st,at):智能体在环境状态为st时采取动作at后所能获得的最优奖赏折扣之和;re(st,at):即时奖励;η是折扣因子;μ是学习率,控制着学习速度,在一定取值范围内,μ越大则收敛越快。本专利技术的基于蝙蝠算法与强化学习的路径规划方法,将蝙蝠算法和强化学习相结合,确保在规避障碍物的前提下更加有效、快速的实现智能机器人路径自主规划。附图说明图1是根据本专利技术实施例的强化学习基本原理图;图2是根据本专利技术实施例的QBA思想框图;图3是根据本专利技术实施例的QBA流程图;图4是根据本专利技术实施例的基于QB本文档来自技高网
...

【技术保护点】
1.基于蝙蝠算法与强化学习的路径规划方法,其特征在于,包括:/n确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;/n以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态-动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;/n从Q表中选取最优的状态-动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。/n

【技术特征摘要】
1.基于蝙蝠算法与强化学习的路径规划方法,其特征在于,包括:
确定路径规划的初始位置和目标位置,采用适应度函数确定两位置的函数值,根据蝙蝠算法得到蝙蝠的初始状态和最终状态;
以<α,γ>为强化学习的动作,从蝙蝠的初始状态开始,对所述动作进行强化学习训练,使每一个状态得到一个最优动作,将训练得到的状态-动作对保存到Q表中;所述<α,γ>为蝙蝠算法的响度衰减系数α和脉冲发射率增强系数γ的组合;
从Q表中选取最优的状态-动作对,代入蝙蝠算法中,得到最优的蝙蝠位置;从而规划出初始位置到目标位置的最优路径。


2.根据权利要求1所述的基于蝙蝠算法与强化学习的路径规划方法,其特征在于,所述蝙蝠的初始状态和最终状态的算法过程为:
Step1:种群初始化;
Step2:初始化蝙蝠的位置xi,并根据适应度函数值的优劣寻找当前最优解x*;
Step3:开始主循环,生成均匀分布的随机数rand,
若rand<ri,则按照下列公式分别更新蝙蝠的频率、速度和位置;
fi=fmin+(fmax-fmin)β,(4)






其中:
β:β∈[0,1]是均匀分布的随机数。
fi:第i只蝙蝠的搜索脉冲频率,fi∈[fmin,fmax];分别表示第t代和第t-1代第i只蝙蝠的速度。

分别表示第t代和第t-1代第i只蝙蝠的状态。
x*:当前所有蝙蝠的最优状态;
若rand≥ri,则根据公式(4)进行局部搜索,产生一个新解xnew,并对该解进行越界处理;
xnew=xold+∈Lt,(7)
其中:
∈∈[-1,1]是均匀分布的随机数;Lt是第t代所有蝙蝠响度的平均值;xold是当前最优个体;xnew是经局部搜索后产生的新个体;
Step4:生成均匀分布的随机数rand,若rand<Li且fit(xnew)<fit(x*),则接受Step3产生的新解xnew,将蝙蝠位置进行更新,同时根据公式(5)和公式(6)对脉冲响度和脉冲发射率进行调整;






其中:
α称为响度衰减系数,γ称为脉冲发射率增强系数...

【专利技术属性】
技术研发人员:邱腾飞朱敬旭辉刘信潮赵景波张文彬
申请(专利权)人:青岛理工大学
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1