【技术实现步骤摘要】
本专利技术属于路径规划,具体为一种面向复杂动态环境的移动机器人的路径规划方法。
技术介绍
1、针对复杂动态环境,研究人员提出基于ddpg((deep deterministic policygradient,深度确定性策略梯度)网络算法的移动机器人的路径规划方法,该方法不需要先验地图。主要步骤为:预先构建深度强化学习算法的状态空间和动作空间以及奖励函数;构建基于ddpg的网络架构,actor网络负责学习策略,即根据当前状态选择下一步的动作;而critic网络则负责评估actor选择的动作的好坏,为actor提供反馈。基于经验池内的状态数据样本进行actor网络和critic网络的训练,actor网络的参数会根据梯度上升的方法进行更新,以使得预期奖励最大化。而critic网络的参数更新是通过最小化td误差来实现的,以使其能够更准确地评估actor选择的动作的价值。通过不断地与环境交互和学习,逐渐提升路径规划的性能,执行端到端的路径规划任务。
2、但目前大多数基于ddpg算法的移动机器人路径规划算法中的奖励函数只包括到达奖励、碰
...【技术保护点】
1.一种面向复杂动态环境的移动机器人的路径规划方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤S1中,机器人状态空间信息包括激光雷达传感器的测距信息sscan、目标位置的相对目标距离sd、航向目标sθ、机器人自身坐标信息sposition和目标位置坐标信息sgoal,机器人状态空间定义为:s=(sscan,sd,sθ,sposition,sgoal)
3.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤S1中,机器人动作空间A定义为:A
...【技术特征摘要】
1.一种面向复杂动态环境的移动机器人的路径规划方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,机器人状态空间信息包括激光雷达传感器的测距信息sscan、目标位置的相对目标距离sd、航向目标sθ、机器人自身坐标信息sposition和目标位置坐标信息sgoal,机器人状态空间定义为:s=(sscan,sd,sθ,sposition,sgoal)
3.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,机器人动作空间a定义为:a=(v,w)
4.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,到达目标奖励与碰撞惩罚函数:
5.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,根据机器人在运动过程中与目标位置的距离dt的变化量来设置距离奖励函数,当机器人靠近目标时给予正奖励,当机器人远离目标位置时给予负奖励;距离奖励函数rd为:
6.根据权利要求1所述的面向复杂动态环境的移动机器人的路径规划方法,其特征在于,所述步骤s1中,根据机器人在运动过程中的航向目标设置方位奖励函数,当机器人的朝向与目标...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。