一种改进的强化学习AGV路径规划方法技术

技术编号:40966241 阅读:31 留言:0更新日期:2024-04-18 20:46
本发明专利技术公开了一种改进的强化学习AGV路径规划方法,其步骤为:搭建基于Gazebo的三维AGV模型及障碍物模型并进行仿真环境建模;设计基于三维仿真环境下AGV路径规划的状态空间和动作空间;设计奖励值函数;设计SR‑PPO算法,将样本正则化项添加到PPO算法的目标函数中;基于SR‑PPO算法设计SR‑ALR‑PPO算法,将KL散度近似的Fisher信息矩阵以及KL散度约束项与SR‑PPO算法结合,自适应选择策略网络参数更新的学习率;基于SR‑ALR‑PPO算法建立路径规划模型并进行训练,得到训练好的路径规划模型。本发明专利技术提出了一种改进的强化学习AGV路径规划方法,基于样本正则化和自适应学习率提高了AGV的自主规划能力,获得最优无碰撞路径,最大限度地减少AGV运行时间和能耗。

【技术实现步骤摘要】

本专利技术属于现代化物流车间构建和智能物流系统领域,具体涉及一种改进的强化学习agv路径规划方法。


技术介绍

1、智能仓储物流的发展达到了崭新的高度,自动导引车(automated guidevehicle,agv)作为智能仓储物流的基础设备之一,其高度智能程度体现当代科技水平的发展。agv属于轮式移动机器人,移动机器人在工业、服务业等行业的发展为agv的研究提供了坚实的基础。自主导航对移动机器人来说是必不可少的功能,而路径规划是实现自主导航功能的重要技术,路径规划技术的好坏决定了机器人能否在有限的时间内找到合适的行驶路径。针对动态复杂环境下的障碍物避障还需要实时性、鲁棒性、稳定性更高的方法,目前常用方法在移动机器人路径规划过程中依然存在陷入局部最优、环境适应性弱和反应不足等问题。因此设计一种高效稳定的路径规划方法对移动机器人的发展具有重要意义。

2、传统方法的决策能力在动态复杂场景中稍显不足,强化学习作为人工智能领域的热门研究方向之一,能够通过智能体在环境中的试错来学习经验,进而训练出最优控制策略,具有更强的环境适用性和自主决策能力。ppo算本文档来自技高网...

【技术保护点】

1.一种改进的强化学习AGV路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种改进的强化学习AGV路径规划方法,其特征在于,在步骤1中,构建AGV模型的三维仿真环境,包括AGV车体、障碍物和目标物,障碍物用于模拟AGV运行环境中的各式各样的实际物体,目标物用于AGV目标点的标志。

3.根据权利要求2所述的一种改进的强化学习AGV路径规划方法,其特征在于,步骤2包括以下子步骤:

4.根据权利要求3所述的一种改进的强化学习AGV路径规划方法,其特征在于,在步骤3中,在初始状态下,设置一个初始的奖励值Ri:

>5.根据权利要求4...

【技术特征摘要】

1.一种改进的强化学习agv路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种改进的强化学习agv路径规划方法,其特征在于,在步骤1中,构建agv模型的三维仿真环境,包括agv车体、障碍物和目标物,障碍物用于模拟agv运行环境中的各式各样的实际物体,目标物用于agv目标点的标志。

3.根据权利要求2所述的一种改进的强化学习agv路径规划方法,其特征在于,步骤2包括以下子步骤:

4.根据权...

【专利技术属性】
技术研发人员:聂君孙立杰张桂华卢晓王海霞盛春阳宋诗斌张治国孙巧巧
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1