本发明专利技术公开了基于深度强化学习的机器人无目标网络的路径规划方法,包括:以dueling deep Q
【技术实现步骤摘要】
基于深度强化学习的机器人无目标网络的路径规划方法
[0001]本专利技术属于智能体路径规划
,具体涉及基于深度强化学习的机器人无目标网络的路径规划方法。
技术介绍
[0002]随着近些年人工智能技术的快速发展,从遥控潜水器(ROVS)到无人机(UAVs),路径规划成为研究的重要课题之一。通过指定目标位置或使用传感器而不告知智能体其他环境信息,使其找到一条不碰撞障碍物并能最短到达目标点的路径。传统的路径规划算法在面对动态环境时的实时计算时间开销是巨大的。这些方法很难推广到未知情况。为此,需要使用新的框架解决传统路径规划中的巨大时间开销和面对动态环境时难以解决的问题。
[0003]尽管在网络模型中添加不同方法和模块来更好地完成工作是不断改进的方向,但已有的工作表明,深度强化学习具有很强的脆弱性和敏感性。深度 RL 算法的大部分脆弱性归因于深度神经网络在 RL 任务中应用的预测问题的非平稳性。在中目标网络的使用增加了网络更新过程中的稳定性,但却使其偏离了强化学习的马尔科夫性质。
[0004]强化学习通过让智能体在环境中不断探索并获得回报,来逐渐优化策略。强化学习满足马尔科夫性质,即未来收益仅取决于当前状态,而和过去的状态无关。在Q
‑
learing 中,智能体以最小化预测动作价值函数和目标函数之间的距离为更新目标,其中定义为:。在t时刻和环境st下智能体从动作空间A中选择动作at并执行,根据状态转移矩阵P转移到新的状态,并获得回报,代表折扣因子,。定义为一个。采用时序差分的办法,在智能体模拟运行上述一个transition后,用得到的数据近似代替目标为。强化学习中智能体必须解决一系列类似的预测任务,它们会迭代地提高其价值函数的准确性和策略。在传统强化学习Q
‑
Learning中,采用一张表格保存每一个状态动作价值Q
‑
Value值。当状态空间连续,采用映射到离散状态空间的方式将造成极大的开销和内存占用。Deep Q
‑
Network使用非线性函数逼近
‑‑‑
带有参数θ的深度网络拟合Q表格。
技术实现思路
[0005]本专利技术所要解决的技术问题是针对上述现有技术的不足,提供基于深度强化学习的机器人无目标网络的路径规划方法,为基于深度强化学习中智能体路径规划问题提供了不使用目标网络,得到更为平滑的路径的算法,在删除目标网络后可行的最大化算子,并且得到的路径轨迹相对平滑,可以节省网络训练过程中的时间,有效降低训练过程中内存占用率,能够使现有深度强化学习保持在线强化学习的准则。
[0006]为实现上述技术目的,本专利技术采取的技术方案为:基于深度强化学习的机器人无目标网络的路径规划方法,包括:步骤1、以深度强化学习网络dueling deep Q
‑
network为骨干网络构建机器人路径规划模型;步骤2、使用优先经验回放的方式进行所述模型的动作平衡智能体训练,并使用动态的方式选择动作平衡智能体训练过程中的探索
‑
利用频次;步骤3、删除深度强化学习网络中的目标网络,并使用mellow算子作为最大化算子进行网络的更新;步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型,即为训练好的机器人路径规划模型,采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。
[0007]为优化上述技术方案,采取的具体措施还包括:上述的步骤1使用dueling deep Q
‑
network作为模型中的骨干网络,具体包括:将dueling deep Q
‑
network的网络输出端改为状态
‑
动作价值函数和状态价值函数,并计算对应状态下的动作优势,使用更改后的状态
‑
动作价值函数作为最终输出。
[0008]上述的步骤2在网络训练时使用优先经验回放选择样本代替原本的经验回放选择样本以进行训练,具体包括:计算每一个存入经验回放池中样本的TD
‑
error,通过TD
‑
error并基于等级的优先级计算每一个样本的优先级,最后通过优先级计算每一个样本被抽取到的概率。
[0009]上述的步骤2使用动态的方式选择动作平衡智能体训练过程中的探索
‑
利用频次的公式为:;其中,t表示当前轮数,δ表示偏移量,x表示随环境变化的变量;训练开始时,较小,智能体会有更多的机会去探索,随着训练回合的增加,逐渐增大,智能体将更有概率选择最优动作。
[0010]上述的步骤3删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,具体包括:删除目标网络,仅使用一个网络进行更新,用mellow算子替换max算子计算价值。
[0011]上述的步骤4使用gym自定义动态环境进行网络的训练并得到网络权重模型,具体包括:自定义智能体的奖惩函数;设置训练智能体的最大回合;设置每一个回合的最大的步骤;定义每一个回合开始时智能体、目标点、障碍物随机生成位置;定义智能体的5个传感器。
[0012]上述的自定义智能体的奖惩函数,包括:定义智能体碰到障碍物或者边界受到
‑
200的惩罚,达到目标点获得200的奖励;
在每个步骤结束后,计算智能体当前状态距离目标点和上一状态距离目标点的差值,给予相应的奖励和惩罚。
[0013]上述的使用gym自定义动态环境还包括:动作空间由前进加上左右方向三个离散的动作组成并在动作和状态中添加加性白色高斯噪声。
[0014]本专利技术具有以下有益效果:本专利技术中删除目标网络,并基于深度强化学习提出了一种融合dueling network、优先经验回放和mellow operator的算法,减少网络的过估计,并提出了一种新的动态方法进行动作选择。实现了端到端的模型,用以解决路径规划收敛缓慢,路径不平滑等问题。本专利技术提供了一种应用于无目标网络深度强化学习的智能体路径规划的方法,使得到的轨迹趋于平滑,相比于传统的智能体路径规划方法,本专利技术不依赖于目标网路即可以正常工作,能够处理动态环境下任务,针对不同的障碍物、目标点具有较强的鲁棒性,具体包括:1、本专利技术使用dueling deep Q
‑
network作为模型中的骨干网络,增加智能体对于环境的感知程度,获取更优的最终网络模型,可提升模型的最终训练效果,针对某些环境采取更平滑的动作;2、本专利技术在网络训练时使用优先经验回放代替原本的经验回放,实现对于更重要样本的抽取,并保证TD
‑
error值为0的情况下也有被抽取到的概率,可更大概率抽取到有学习价值的样本,提升网络学习效率;3、本专利技术删除深度强化学习网络中通常使用的目标网络,并使用mellow算子作为最大化算子进行网络的更新,提供了另一种不依赖于目标网络进行深度强化学习的方案,加快收敛速度,节省内存开销;4、本专利技术使用gym自定义动态环境进行网络的训练并得到网络本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,包括:步骤1、以深度强化学习网络dueling deep Q
‑
network为骨干网络构建机器人路径规划模型;步骤2、使用优先经验回放的方式进行所述模型的动作平衡智能体训练,并使用动态的方式选择动作平衡智能体训练过程中的探索
‑
利用频次;步骤3、删除深度强化学习网络中的目标网络,并使用mellow算子作为最大化算子进行网络的更新;步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型,即为训练好的机器人路径规划模型,采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。2. 根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤1使用dueling deep Q
‑
network作为模型中的骨干网络,具体包括:将dueling deep Q
‑
network的网络输出端改为状态
‑
动作价值函数和状态价值函数,并计算对应状态下的动作优势,使用更改后的状态
‑
动作价值函数作为最终输出。3.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤2在网络训练时使用优先经验回放选择样本代替原本的经验回放选择样本以进行训练,具体包括:计算每一个存入经验回放池中样本的TD
‑
error,通过TD
‑
error并基于等级的优先级计算每一个样本的优先级,最后通过优先级计算每一个样本被抽取到的概率。4.根据权利要求1所述的基...
【专利技术属性】
技术研发人员:曹亚楠,赵冬,曹翔,
申请(专利权)人:安徽大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。