【技术实现步骤摘要】
本专利技术涉及强化学习与路径规划的,尤其涉及一种基于改进q学习的agv路径规划方法。
技术介绍
1、在仓储物流搬运过程所涉及的可自主移动机器人(agv)的规划与调度的问题中,路径规划是其中的核心问题之一。路径规划的主要过程可以描述为:agv在一个确定的环境下,依照某种优化准则(比如行走路线最短,用时最少等),找到一条从起点至终点的无碰撞路径。目前,路径规划所涉及的方法多种多样,传统的优化算法虽然思路上相对简单明了,但是在复杂的环境下运算效率极低。而仿生学算法虽更加灵活,但也容易陷入局部最优或收敛速度极慢。
2、强化学习算法作为一种通过和环境进行互动,利用环境反馈不断进行尝试并积累经验,采用特定的策略并最终找到最佳路线的方法。而在路径规划领域最广泛应用的是一种基于值的强化学习方法,即q学习算法。将实施的动作所获取的即时奖励用于更新q表的值,并根据每轮迭代所更新的q值来选取可以获取最大收益的动作合集,即最优路线。而现有的基于强化学习的路径规划算法主要存在以下的问题:1.强化学习自身具有由于计算量大而导致收敛时间过长甚至不收敛的问
...【技术保护点】
1.一种基于改进Q学习的AGV路径规划方法,其特征在于,过程包括:
2.根据权利要求1所述的一种基于改进Q学习的AGV路径规划方法,其特征在于,利用改进的人工势场法与莱维飞行分布法对Q表进行初始化的步骤如下:
3.根据权利要求2所述的一种基于改进Q学习的AGV路径规划方法,其特征在于,step3.7对全部的解进行更新通过公式(5)进行:
4.根据权利要求2所述的一种基于改进Q学习的AGV路径规划方法,其特征在于,当Q表利用随机探索来进行二次初始化的时候,遵循莱维飞行分布的搜索算法按照公式(6)进行更新:
5.根据权利要求
...【技术特征摘要】
1.一种基于改进q学习的agv路径规划方法,其特征在于,过程包括:
2.根据权利要求1所述的一种基于改进q学习的agv路径规划方法,其特征在于,利用改进的人工势场法与莱维飞行分布法对q表进行初始化的步骤如下:
3.根据权利要求2所述的一种基于改进q学习的agv路径规划方法,其特征在于,step3.7对全部的解进行更新通过公式(5)进行:
【专利技术属性】
技术研发人员:费中阳,屈轩宇,吴迪,孙希明,徐昌一,高永峰,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。