一种面向复杂动态环境的移动机器人的路径规划方法技术

技术编号:43437782 阅读:21 留言:0更新日期:2024-11-27 12:45
本发明专利技术属于路径规划技术领域,具体为一种面向复杂动态环境的移动机器人的路径规划方法,构建深度强化学习算法的状态空间和动作空间以及奖励函数时,设计了速度奖励函数,使机器人在安全状态能够以最快的速度向目标点前进,在危险状态能够避免卡死,大幅降低了机器人到达目标点所需的平均步数;同时设计了启发性奖励函数,提高了机器人躲避障碍物的能力,在复杂环境中适应性变强。

【技术实现步骤摘要】

本专利技术属于路径规划,具体为一种面向复杂动态环境的移动机器人的路径规划方法


技术介绍

1、针对复杂动态环境,研究人员提出基于ddpg((deep deterministic policygradient,深度确定性策略梯度)网络算法的移动机器人的路径规划方法,该方法不需要先验地图。主要步骤为:预先构建深度强化学习算法的状态空间和动作空间以及奖励函数;构建基于ddpg的网络架构,actor网络负责学习策略,即根据当前状态选择下一步的动作;而critic网络则负责评估actor选择的动作的好坏,为actor提供反馈。基于经验池内的状态数据样本进行actor网络和critic网络的训练,actor网络的参数会根据梯度上升的方法进行更新,以使得预期奖励最大化。而critic网络的参数更新是通过最小化td误差来实现的,以使其能够更准确地评估actor选择的动作的价值。通过不断地与环境交互和学习,逐渐提升路径规划的性能,执行端到端的路径规划任务。

2、但目前大多数基于ddpg算法的移动机器人路径规划算法中的奖励函数只包括到达奖励、碰撞惩罚、距离奖励、方本文档来自技高网...

【技术保护点】

1.一种面向复杂动态环境的移动机器人的路径规划方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤S1中,机器人状态空间信息包括激光雷达传感器的测距信息sscan、目标位置的相对目标距离sd、航向目标sθ、机器人自身坐标信息sposition和目标位置坐标信息sgoal,机器人状态空间定义为:s=(sscan,sd,sθ,sposition,sgoal)

3.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤S1中,机器人动作空间A定义为:A=(v,w)

...

【技术特征摘要】

1.一种面向复杂动态环境的移动机器人的路径规划方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,机器人状态空间信息包括激光雷达传感器的测距信息sscan、目标位置的相对目标距离sd、航向目标sθ、机器人自身坐标信息sposition和目标位置坐标信息sgoal,机器人状态空间定义为:s=(sscan,sd,sθ,sposition,sgoal)

3.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,机器人动作空间a定义为:a=(v,w)

4.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,到达目标奖励与碰撞惩罚函数:

5.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,根据机器人在运动过程中与目标位置的距离dt的变化量来设置距离奖励函数,当机器人靠近目标时给予正奖励,当机器人远离目标位置时给予负奖励;距离奖励函数rd为:

6.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,根据机器人在运动过程中的航向目标设置方位奖励函数,当机器人的朝向与目标...

【专利技术属性】
技术研发人员:吉一纛胡澈宇
申请(专利权)人:北京科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1