一种基于改进Q学习的AGV路径规划方法技术

技术编号:41974900 阅读:36 留言:0更新日期:2024-07-10 16:54
一种基于改进Q学习的AGV路径规划方法,属于强化学习与路径规划领域。主要包含下列两个过程:过程1:基于人工势场法对Q表进行初始化,并利用莱维飞行分布与死区逃脱机制,使Q表的初始值在具有一定的引导倾向的同时最大限度避免将AGV间接引入死角。过程2:在Q学习对地图进行探索的同时引入蚁群算法,利用蚁群信息素的经验导向的特点在后期对Q学习的收敛速度进行加快,弥补Q学习收敛性不足的缺点。并改进ε‑greedy策略,使其前期扩大搜索范围,后期向最优方向快速迭代,避免陷入局部最优解。所提出的Imp‑Q算法,在具有较高成功率的前提下,有着更快的迭代速度以及更好的效果,AGV可以快速绕开障碍物,不容易陷入死区。

【技术实现步骤摘要】

本专利技术涉及强化学习与路径规划的,尤其涉及一种基于改进q学习的agv路径规划方法。


技术介绍

1、在仓储物流搬运过程所涉及的可自主移动机器人(agv)的规划与调度的问题中,路径规划是其中的核心问题之一。路径规划的主要过程可以描述为:agv在一个确定的环境下,依照某种优化准则(比如行走路线最短,用时最少等),找到一条从起点至终点的无碰撞路径。目前,路径规划所涉及的方法多种多样,传统的优化算法虽然思路上相对简单明了,但是在复杂的环境下运算效率极低。而仿生学算法虽更加灵活,但也容易陷入局部最优或收敛速度极慢。

2、强化学习算法作为一种通过和环境进行互动,利用环境反馈不断进行尝试并积累经验,采用特定的策略并最终找到最佳路线的方法。而在路径规划领域最广泛应用的是一种基于值的强化学习方法,即q学习算法。将实施的动作所获取的即时奖励用于更新q表的值,并根据每轮迭代所更新的q值来选取可以获取最大收益的动作合集,即最优路线。而现有的基于强化学习的路径规划算法主要存在以下的问题:1.强化学习自身具有由于计算量大而导致收敛时间过长甚至不收敛的问题,如何对探索策略即本文档来自技高网...

【技术保护点】

1.一种基于改进Q学习的AGV路径规划方法,其特征在于,过程包括:

2.根据权利要求1所述的一种基于改进Q学习的AGV路径规划方法,其特征在于,利用改进的人工势场法与莱维飞行分布法对Q表进行初始化的步骤如下:

3.根据权利要求2所述的一种基于改进Q学习的AGV路径规划方法,其特征在于,step3.7对全部的解进行更新通过公式(5)进行:

4.根据权利要求2所述的一种基于改进Q学习的AGV路径规划方法,其特征在于,当Q表利用随机探索来进行二次初始化的时候,遵循莱维飞行分布的搜索算法按照公式(6)进行更新:

5.根据权利要求1所述的一种基于改进...

【技术特征摘要】

1.一种基于改进q学习的agv路径规划方法,其特征在于,过程包括:

2.根据权利要求1所述的一种基于改进q学习的agv路径规划方法,其特征在于,利用改进的人工势场法与莱维飞行分布法对q表进行初始化的步骤如下:

3.根据权利要求2所述的一种基于改进q学习的agv路径规划方法,其特征在于,step3.7对全部的解进行更新通过公式(5)进行:

【专利技术属性】
技术研发人员:费中阳屈轩宇吴迪孙希明徐昌一高永峰
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1