【技术实现步骤摘要】
基于深度强化学习的机器人无目标网络的路径规划方法
[0001]本专利技术属于智能体路径规划
,具体涉及基于深度强化学习的机器人无目标网络的路径规划方法。
技术介绍
[0002]随着近些年人工智能技术的快速发展,从遥控潜水器(ROVS)到无人机(UAVs),路径规划成为研究的重要课题之一。通过指定目标位置或使用传感器而不告知智能体其他环境信息,使其找到一条不碰撞障碍物并能最短到达目标点的路径。传统的路径规划算法在面对动态环境时的实时计算时间开销是巨大的。这些方法很难推广到未知情况。为此,需要使用新的框架解决传统路径规划中的巨大时间开销和面对动态环境时难以解决的问题。
[0003]尽管在网络模型中添加不同方法和模块来更好地完成工作是不断改进的方向,但已有的工作表明,深度强化学习具有很强的脆弱性和敏感性。深度 RL 算法的大部分脆弱性归因于深度神经网络在 RL 任务中应用的预测问题的非平稳性。在中目标网络的使用增加了网络更新过程中的稳定性,但却使其偏离了强化学习的马尔科夫性质。
[0004]强化学习通过让智能 ...
【技术保护点】
【技术特征摘要】
1.基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,包括:步骤1、以深度强化学习网络dueling deep Q
‑
network为骨干网络构建机器人路径规划模型;步骤2、使用优先经验回放的方式进行所述模型的动作平衡智能体训练,并使用动态的方式选择动作平衡智能体训练过程中的探索
‑
利用频次;步骤3、删除深度强化学习网络中的目标网络,并使用mellow算子作为最大化算子进行网络的更新;步骤4、使用gym自定义动态环境进行网络的训练并得到网络权重模型,即为训练好的机器人路径规划模型,采用训练好的机器人路径规划模型进行机器人无目标网络的路径规划。2. 根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤1使用dueling deep Q
‑
network作为模型中的骨干网络,具体包括:将dueling deep Q
‑
network的网络输出端改为状态
‑
动作价值函数和状态价值函数,并计算对应状态下的动作优势,使用更改后的状态
‑
动作价值函数作为最终输出。3.根据权利要求1所述的基于深度强化学习的机器人无目标网络的路径规划方法,其特征在于,所述步骤2在网络训练时使用优先经验回放选择样本代替原本的经验回放选择样本以进行训练,具体包括:计算每一个存入经验回放池中样本的TD
‑
error,通过TD
‑
error并基于等级的优先级计算每一个样本的优先级,最后通过优先级计算每一个样本被抽取到的概率。4.根据权利要求1所述的基...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。