【技术实现步骤摘要】
基于深度强化学习DQN的多AGV路径规划避障方法
[0001]本专利技术涉及一种基于深度强化学习DQN的多AGV路径规划避障方法,属于移动机器人导航
技术介绍
[0002]近年来,自动引导小车(Auto Guide Vehicle,AGV)因其响应快、可控性强、工作效率高、安全性好的特点带来的高柔性和自动化程度高的优势,使其作为物料运输工具在仓储系统与制造工厂中都起到了重要作用。
[0003]路径规划算法研究是AGV研究内容中最重要的技术之一,其研究的目的是在已知的AGV起点和终点之间,根据不同的需求规划出一条最优或者次优的AGV移动线路,以保证运输过程的通畅与高效。当系统趋于庞大和复杂时,为保证系统有序高效的运行,需要多个AGV在其中协同合作。在系统中包含多个AGV时,除了需要为每台AGV规划合理高效地到达终点的路径外,还需要考虑AGV之间的碰撞躲避问题。在保障AGV之间不发生碰撞和死锁的情况下,为每个AGV规划一条到达终点的合理路径。
[0004]现有的大多数针对多AGV的路径规划算法的求解思路 ...
【技术保护点】
【技术特征摘要】
式中r1表示因AGV运行超出边界或撞上障碍物的惩罚;r2表示斜向动作的移动距离平衡惩罚;r3表示启发式奖励,通过计算AGV与终点间的曼哈顿距离并与运行前的距离进行比较,给予相应的奖励;r4表示AGV到达终点的奖励,p
A
=(x
A
,y
A
)表示当前位置,x
A
、y
A
表示具体的横纵坐标,p
′
A
=(x
′
A
,y
′
A
)则表示前一时刻的位置;p
G
=(x
G
,y
G
)表示终点位置,下标G代表终点,a表示AGV执行的动作。7.如权利要求1所述的一种基于深度强化学习DQN的多AGV路径规划避障方法,其特征在于,DQN算法结合神经网络算法和Q
‑
learning强化学习算法,在Q
‑
learning中,利用表格记录和更新Q值,Q值的计算通过以下式子Q
π
(s,a)=E
π
[G
t
|S
t
=s,A
t
=a]式中Q
π
(s,a)表示根据策略E
π
,在时刻t时状态空间S
t
中的一个状态s下采取动作空间A
t
中的一个动作a的价值函数,回报G
t
表示为之后每一步k的奖励R
t+k+1
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。