一种基于DBQ算法的路径规划方法技术

技术编号:22417728 阅读:71 留言:0更新日期:2019-10-30 01:53
本发明专利技术属于机器人路径规划领域,具体涉及一种基于DBQ算法的路径规划方法。本发明专利技术所提出的路径规划方法通过对强化学习Dyna‑Q算法中的动作选择机制进行改进主要解决三个路径规划问题:其一,解决机器人在这种环境中学习的早期阶段学习效率低的问题;其二,提高了机器路径规划的精度;其三,加快了算法的收敛速度。

【技术实现步骤摘要】
一种基于DBQ算法的路径规划方法
本专利技术属于机器人路径规划领域,具体涉及一种基于DBQ算法的路径规划方法。
技术介绍
近年来,随着现代科学技术,特别是计算机技术、电子通信技术、控制技术的发展,移动机器人性能不断完善,使其在医疗卫生、航天航空、机械制造、教育娱乐等领域得到了不同程度的应用。移动机器人在各个领域完成各项任务的前提条件是从起始位置朝向执行任务的目标点规划处一条有效路径,从而路径规划技术应运而生。路径规划技术是研究移动机器人相关技术的基础,也是机器人学中一个重要的组成部分。传统的路径规划方法大多需要对环境进行完整的信息配置,机器人不具备对环境信息的自学习能力。机器人应用领域的不断扩大导致其应用场景复杂性不断提升,如何能让机器人理解与感知环境成为学术界一直讨论与研究的问题。现有的研究成果,例如神经网络算法、遗传算法、蚁群算法等智能算法广泛地应用于机器人路径规划领域,但这些算法大都不具备与环境的交互并自主学习以适应复杂多变的环境信息的能力。强化学习(ReinforceLearning,RL)的发展为解决此问题提供了方法,它强调机器人与环境的相互作用,通过“试错”的方式强化机器人的学习过程。机器人不会被教导要采取哪些行动,但它通过Q值函数来评估当前状态从而选择动作以最大化长期目标中的累积奖励。移动机器人路径规划方法有很多,国内外学者对移动机器人路径规划算法已经进行了大量的研究工作。现存算法从理解环境的角度主要分为非智能算法与智能算法,非智能算法主要利用力、几何等方式完成路径规划的过程,智能算法在强调机器人对环境的学习与理解的基础上完成相应规划过程。总结现有研究成果发现,目前基于强化学习的机器人路径规划存在以下几个问题需要解决:(1)非智能算法的路径规划算法虽然灵活简单、可操作性强,但是大都要预知环境信息,机器人对环境的感知能力弱。在环境复杂多变或是缺少环境信息的情况下,传统的算法适用性差;(2)智能路径规划算法虽然对环境有一定的感知能力,但是算法在机器人路径规划的精度、算法的收敛速度等方面仍需要改进;(3)Dyna学习框架下强化学习进行移动机器人的路径规划时,利用环境模型产生的模型样本与在线学习产生的真实样本可以共同更新值函数,提高了算法的学习效率。但机器人在具有稀疏奖赏值的未知环境中获得奖励的概率太小,导致机器人在这种环境中学习的早期阶段学习效率低。
技术实现思路
本专利技术的目的在于提供通过对强化学习Dyna-Q算法中的动作选择机制进行改进实现有效的避开了环境中的障碍物的一种基于DBQ算法的路径规划方法。本专利技术的目的通过如下技术方案来实现:包括以下步骤:步骤1:构建BP神经网络动作选择器;步骤2:当前训练次数加一;初始化机器人的起始位置、目标点、Model(s,a)和Q值函数Q(s,a);其中Model(s,a)为机器人与环境的交互过程中环境估计模型;s为机器人当前的状态,即位置信息;a为机器人即将执行的动作;步骤3:通过BP神经网络动作选择器选择动作a步骤4:根据即将执行的动作a,计算机器人下一时刻的状态s';步骤5:检查机器人是否进入“死区”,若进入“死区”根据ε-greedy动作选择策略选择动作;所述的ε-greedy动作选择策略为:步骤6:执行动作a,得到新状态s'和即时奖励r;步骤7:更新Q值函数Q(s,a)和环境模型Model(s,a);步骤8:利用环境模型得到模型样本,利用模型样本H更新Q值函数,此过程进行N次;步骤9:若未与障碍物发生碰撞且未到达目标点,则返回步骤3进行下一次路径规划;若与障碍物发生碰撞或已到达终点,此时若未达到最大训练次数或未得到最优策略,则返回步骤2进行下一次训练。本专利技术还可以包括:所述的步骤1中构建BP神经网络动作选择器的方法具体为:步骤2.1:从环境信息与定义的智能体运动规则中提取出特征向量,作为网络的输入Y(n)与输出d(n);步骤2.2:设计网络的结构,确定BP神经网络各层神经元个数;步骤2.3:用非零随机值设置权重ωmi和ωin的值;步骤2.4:计算BP神经网络的误差;步骤2.5:调整输出层与隐含层之间的权重ωin,计算误差对ωin的梯度再沿着该方向反向进行调整:其中η为学习率;.步骤2.6:将误差信号向前传播,调整输入层与隐含层之间连接权值,BP神经网络的一次迭代调整结束;步骤2.7:BP神经网络通过n次迭代最终收敛,得到智能体的动作选择器模型。本专利技术的有益效果在于:本专利技术针对现阶段路径规划领域存在问题,提出了一种基于DBQ算法的路径规划方法,这种方法不仅有效的实现了路径规划,同时也有效的避开了环境中的障碍物。本专利技术所提出的路径规划方法通过对强化学习Dyna-Q算法中的动作选择机制进行改进主要解决三个路径规划问题:其一,解决机器人在这种环境中学习的早期阶段学习效率低的问题;其二,提高了机器路径规划的精度;其三,加快了算法的收敛速度。附图说明图1是一种基于DBQ算法的路径规划方法的总体流程图。图2是一种基于DBQ算法的路径规划方法的详细流程图。图3是本专利技术的实施例中机器人与环境坐标系图。图4是本专利技术的实施例中空间分成的八个区域的示意图。图5是本专利技术中机器人陷入“死区”情况的示意图。图6是本专利技术的实施例中机器人动作选择规则表。具体实施方式下面结合附图对本专利技术做进一步描述。目前利用强化学习解决移动机器人路径规划问题的研究大都是在环境未知的情况下通过与环境的交互学习得到真实样本,利用真实样本进行学习策略的迭代与更新,此过程称为“学习”的过程。但是机器人与复杂或者特殊的真实环境交互时开销较大,从而引入“规划”的概念来解决此问题。所谓规划是指在机器人与环境交互的过程中建立相应的环境模型,将环境模型产生的模型样本用于策略的迭代。强化学习的Dyna框架建立环境模型的同时引入规划的学习框架,Dyna学习框架将强化学习的学习与规划过程相结合,学习过程对环境进行学习的同时建立环境模型,利用学习产生的真实样本与环境模型产生的模型样本共同完成机器人的学习过程。传统强化学习仅用真实样本学习迭代值函数表的学习方式效率较低。为解决此问题,本专利技术引入Dyna学习框架中规划与学习同时学习的策略,在Dyna-Q算法的基础上改进机器人动作选择策略以实现移动机器人路径规划算法的设计与实现。强化学习在解决移动机器人的路径规划问题时利用环境模型产生的模型样本与在线学习时产生的真实样本可以共同更新值函数,提高了算法的学习效率。但机器人在具有稀疏奖赏值的未知环境中获得奖励的概率太小,导致机器人在这种环境中学习的早期阶段学习效率低。本专利技术针对现阶段路径规划领域存在问题,提出了一种基于DBQ的路径规划方法,这种方法不仅有效的实现了路径规划,同时也有效的避开了环境中的障碍物。本专利技术所提出的路径规划方法通过对强化学习Dyna-Q算法中的动作选择机制进行改进主要解决三个路径规划问题:其一,解决机器人在这种环境中学习的早期阶段学习效率低的问题;其二,提高了机器路径规划的精度;其三,加快了算法的收敛速度。专利技术主要包括:定义机器人动作选择规则,通过障碍物相对机器人的位置信息定义的环境状态信息和根据机器人动作选择的8个方向定义的动作空间来制定机器人的动作选择规则;构建BP神经网络动作选择器,根据智能体的运动规本文档来自技高网
...

【技术保护点】
1.一种基于DBQ算法的路径规划方法,其特征在于,包括以下步骤:步骤1:构建BP神经网络动作选择器;步骤2:当前训练次数加一;初始化机器人的起始位置、目标点、Model(s,a)和Q值函数Q(s,a);其中Model(s,a)为机器人与环境的交互过程中环境估计模型;s为机器人当前的状态,即位置信息;a为机器人即将执行的动作;步骤3:通过BP神经网络动作选择器选择动作a步骤4:根据即将执行的动作a,计算机器人下一时刻的状态s';步骤5:检查机器人是否进入“死区”,若进入“死区”根据ε‑greedy动作选择策略选择动作;所述的ε‑greedy动作选择策略为:

【技术特征摘要】
1.一种基于DBQ算法的路径规划方法,其特征在于,包括以下步骤:步骤1:构建BP神经网络动作选择器;步骤2:当前训练次数加一;初始化机器人的起始位置、目标点、Model(s,a)和Q值函数Q(s,a);其中Model(s,a)为机器人与环境的交互过程中环境估计模型;s为机器人当前的状态,即位置信息;a为机器人即将执行的动作;步骤3:通过BP神经网络动作选择器选择动作a步骤4:根据即将执行的动作a,计算机器人下一时刻的状态s';步骤5:检查机器人是否进入“死区”,若进入“死区”根据ε-greedy动作选择策略选择动作;所述的ε-greedy动作选择策略为:步骤6:执行动作a,得到新状态s'和即时奖励r;步骤7:更新Q值函数Q(s,a)和环境模型Model(s,a);步骤8:利用环境模型得到模型样本,利用模型样本H更新Q值函数,此过程进行N次;步骤9:若未与障碍物发生碰撞且未到达目标点...

【专利技术属性】
技术研发人员:徐东陈云飞丁戈张子迎孟宇龙宫思远潘思辰杨旭
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙江,23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1