System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种改进的强化学习AGV路径规划方法技术_技高网

一种改进的强化学习AGV路径规划方法技术

技术编号:40966241 阅读:2 留言:0更新日期:2024-04-18 20:46
本发明专利技术公开了一种改进的强化学习AGV路径规划方法,其步骤为:搭建基于Gazebo的三维AGV模型及障碍物模型并进行仿真环境建模;设计基于三维仿真环境下AGV路径规划的状态空间和动作空间;设计奖励值函数;设计SR‑PPO算法,将样本正则化项添加到PPO算法的目标函数中;基于SR‑PPO算法设计SR‑ALR‑PPO算法,将KL散度近似的Fisher信息矩阵以及KL散度约束项与SR‑PPO算法结合,自适应选择策略网络参数更新的学习率;基于SR‑ALR‑PPO算法建立路径规划模型并进行训练,得到训练好的路径规划模型。本发明专利技术提出了一种改进的强化学习AGV路径规划方法,基于样本正则化和自适应学习率提高了AGV的自主规划能力,获得最优无碰撞路径,最大限度地减少AGV运行时间和能耗。

【技术实现步骤摘要】

本专利技术属于现代化物流车间构建和智能物流系统领域,具体涉及一种改进的强化学习agv路径规划方法。


技术介绍

1、智能仓储物流的发展达到了崭新的高度,自动导引车(automated guidevehicle,agv)作为智能仓储物流的基础设备之一,其高度智能程度体现当代科技水平的发展。agv属于轮式移动机器人,移动机器人在工业、服务业等行业的发展为agv的研究提供了坚实的基础。自主导航对移动机器人来说是必不可少的功能,而路径规划是实现自主导航功能的重要技术,路径规划技术的好坏决定了机器人能否在有限的时间内找到合适的行驶路径。针对动态复杂环境下的障碍物避障还需要实时性、鲁棒性、稳定性更高的方法,目前常用方法在移动机器人路径规划过程中依然存在陷入局部最优、环境适应性弱和反应不足等问题。因此设计一种高效稳定的路径规划方法对移动机器人的发展具有重要意义。

2、传统方法的决策能力在动态复杂场景中稍显不足,强化学习作为人工智能领域的热门研究方向之一,能够通过智能体在环境中的试错来学习经验,进而训练出最优控制策略,具有更强的环境适用性和自主决策能力。ppo算法使用重要性采样来更新策略,但重要性采样可能导致训练样本的选择偏差,导致在连续空间的探索能力不足以及收敛速度慢的问题。为了解决以上问题,提出一种基于样本正则化的强化学习方法,通过重复使用训练过程中的样本数据解决agv路径规划过程中过分依赖环境反馈导致陷入局部最优的问题,使agv在训练过程中具有较高环境探索能力。其次,引入自适应学习率的机制,解决ppo算法在复杂环境下训练过程消耗大量时间的问题。通过衡量两个新旧策略概率分布之间差异,动态地调整学习率的大小,准确地预估策略参数的更新方向,提高agv在路径规划训练阶时的学习速度。

3、目前在国内外的文献和专利文件中,尚未见到将基于样本正则化和自适应学习率的ppo算法应用到agv路径规划中的报道。


技术实现思路

1、针对现有技术中存在的上述技术问题,本专利技术提出了一种改进的强化学习agv路径规划方法,设计合理,解决了现有技术的不足,具有良好的效果。

2、为了实现上述目的,本专利技术采用如下技术方案:

3、一种改进的强化学习agv路径规划方法,包括以下步骤:

4、步骤1:搭建基于gazebo的三维agv模型及障碍物模型并进行仿真环境建模;

5、步骤2:设计基于三维仿真环境下agv路径规划的状态空间和动作空间;

6、步骤3:基于步骤1和2设计奖励值函数;

7、步骤4:设计sr-ppo算法,将样本正则化项添加到ppo算法的目标函数中,提高ppo算法的策略选择性,进而增加agv训练过程对工作环境的探索能力;

8、步骤5:基于sr-ppo算法设计sr-alr-ppo算法,将kl散度近似的fisher信息矩阵以及kl散度约束项与sr-ppo算法结合,自适应选择策略网络参数更新的学习率,提高策略的性能和收敛速度,进而提高agv路径规划模型在训练阶段的学习速度;

9、步骤6:基于sr-alr-ppo算法建立路径规划模型并进行训练,得到训练好的路径规划模型。

10、进一步地,在步骤1中,构建agv模型的三维仿真环境,包括agv车体、障碍物和目标物,障碍物用于模拟agv运行环境中的各式各样的实际物体,目标物用于agv目标点的标志。

11、进一步地,步骤2包括以下子步骤:

12、步骤2.1、状态空间设计包括障碍物信息、agv位姿信息和目标点的位姿信息;障碍物信息包括激光雷达的点云信息和视觉图像信息;agv位姿信息和目标点的位姿信息用数组表示为:

13、[vt,ωt,dt,θt];

14、其中,vt表示t时刻agv的线速度,ωt表示t时刻agv的角速度,dt表示t时刻agv相对目标位置的距离,θt表示t时刻agv相对目标位置的角度差值;

15、步骤2.2、动态空间设计根据agv的运动学模型,将agv的动作进行离散化处理,将agv动作输出a设置为线速度v和角速度ω的连续空间:

16、a=[v,ω];

17、线速度v的取值范围为[-vmax,+vmax](m/s),角速度ω的取值范围为[-ωmax,+ωmax](rad/s)。

18、进一步地,在步骤3中,在初始状态下,设置一个初始的奖励值ri:

19、ri=η0;

20、其中,η0为常系数;

21、设置相邻两时刻的agv与目标位置的距离差作为密集奖励值rd1:

22、rd1=η1×(dt-1-dt);

23、其中,dt和dt-1分别表示当前t时刻和t-1时刻agv相对目标位置的距离,η1为大于0的常系数;

24、设置相邻两时刻的agv与最近障碍物的距离差作为密集奖励值rd2:

25、

26、其中,和分别表示当前t时刻和t-1时刻相对agv距离最近的障碍物的距离,d*为agv与障碍物的阈值距离,η2和η3为大于0的常系数;

27、设计奖励值为负值,根据角速度和线速度的变化幅度设置密集奖励值ra:

28、ra=-η4×(|ωt-ωt-1|+|vt-vt-1|):

29、其中,η4为大于0的常系数,ωt和ωt-1分别表示当前t时刻和t-1时刻agv的角速度,vt和vt-1分别表示当前t时刻和t-1时刻agv的线速度,|ωt-ωt-1|和|vt-vt-1|分别表示前后时刻角速度和线速度的变化率;

30、设置agv与障碍物发生碰撞时的惩罚和到达目标位置时的奖励为稀疏奖励值,稀疏奖励值re的表达式为:

31、

32、其中,η5和η6为大于0的常系数,表示当前t时刻agv与障碍物或目标位置最近的距离,dmin表示agv与障碍物发生碰撞的距离阈值,dg表示agv达到目标位置的距离阈值;

33、最终奖励值函数r表达式为:

34、r=rd1+rd2+ra+re+ri。

35、进一步地,步骤4包括以下子步骤:

36、步骤4.1、设计基于agv动作样本数据的正则化项,定义样本正则化项t(π(a|s))如下所示:

37、t(π(a|s))=ea~π(a|s)[f(a)]+ea,a'~π(a|s)[g(a,a')];

38、其中,s表示当前时刻的状态,a和a'表示相邻两时刻的动作样本,π(a|s)表示在状态s下动作a的概率密度;函数f(a)定义了一种与状态无关的额外奖励,它根据先验知识进行探索,用于引导动作往最优动作序列聚集;函数g(a,a')模拟了动作之间的一种内在关系,度量相邻两动作之间的广义相对距离,用于均衡动作之间的概率分布;

39、步骤4.2、因利用样本正则化在处理大规模数据时依然会面临计算复杂度较高的问题,为了避免上述问题,所以使用无偏估计即在重复抽样的情况下本文档来自技高网...

【技术保护点】

1.一种改进的强化学习AGV路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种改进的强化学习AGV路径规划方法,其特征在于,在步骤1中,构建AGV模型的三维仿真环境,包括AGV车体、障碍物和目标物,障碍物用于模拟AGV运行环境中的各式各样的实际物体,目标物用于AGV目标点的标志。

3.根据权利要求2所述的一种改进的强化学习AGV路径规划方法,其特征在于,步骤2包括以下子步骤:

4.根据权利要求3所述的一种改进的强化学习AGV路径规划方法,其特征在于,在步骤3中,在初始状态下,设置一个初始的奖励值Ri:

5.根据权利要求4所述的一种改进的强化学习AGV路径规划方法,其特征在于,步骤4包括以下子步骤:

6.根据权利要求5所述的一种改进的强化学习AGV路径规划方法,其特征在于,步骤5包括以下子步骤:

7.根据权利要求6所述的一种改进的强化学习AGV路径规划方法,其特征在于,步骤6包括以下子步骤:

【技术特征摘要】

1.一种改进的强化学习agv路径规划方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种改进的强化学习agv路径规划方法,其特征在于,在步骤1中,构建agv模型的三维仿真环境,包括agv车体、障碍物和目标物,障碍物用于模拟agv运行环境中的各式各样的实际物体,目标物用于agv目标点的标志。

3.根据权利要求2所述的一种改进的强化学习agv路径规划方法,其特征在于,步骤2包括以下子步骤:

4.根据权...

【专利技术属性】
技术研发人员:聂君孙立杰张桂华卢晓王海霞盛春阳宋诗斌张治国孙巧巧
申请(专利权)人:山东科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1