基于深度强化学习DQN的多AGV路径规划避障方法技术

技术编号:37993361 阅读:21 留言:0更新日期:2023-06-30 10:07
本发明专利技术一种基于深度强化学习DQN的多AGV路径规划避障方法,其包括以下步骤:根据激光雷达点云数据构建周围环境地图,并将其转换为栅格地图;根据栅格地图信息构建AGV的观察矩阵和状态向量,观察矩阵记录AGV周围是否存在其他AGV且这些AGV的运行方向;构建针对单AGV的多起点多终点路径规划模型;将构建的模型应用在环境中所有AGV上,计算出每个AGV在不考虑其他AGV的情况下的预动作,依据AGV观测范围内其他AGV的预动作得到观测矩阵,利用观测矩阵对模型结果进行修正。相较于其他启发式算法或利用深度强化学习的方法构建多AGV路径规划的方法相比,本发明专利技术能够保证AGV在躲避碰撞的同时保持最优的动作选择。时保持最优的动作选择。时保持最优的动作选择。

【技术实现步骤摘要】
基于深度强化学习DQN的多AGV路径规划避障方法


[0001]本专利技术涉及一种基于深度强化学习DQN的多AGV路径规划避障方法,属于移动机器人导航


技术介绍

[0002]近年来,自动引导小车(Auto Guide Vehicle,AGV)因其响应快、可控性强、工作效率高、安全性好的特点带来的高柔性和自动化程度高的优势,使其作为物料运输工具在仓储系统与制造工厂中都起到了重要作用。
[0003]路径规划算法研究是AGV研究内容中最重要的技术之一,其研究的目的是在已知的AGV起点和终点之间,根据不同的需求规划出一条最优或者次优的AGV移动线路,以保证运输过程的通畅与高效。当系统趋于庞大和复杂时,为保证系统有序高效的运行,需要多个AGV在其中协同合作。在系统中包含多个AGV时,除了需要为每台AGV规划合理高效地到达终点的路径外,还需要考虑AGV之间的碰撞躲避问题。在保障AGV之间不发生碰撞和死锁的情况下,为每个AGV规划一条到达终点的合理路径。
[0004]现有的大多数针对多AGV的路径规划算法的求解思路是利用启发式或元启发本文档来自技高网...

【技术保护点】

【技术特征摘要】
式中r1表示因AGV运行超出边界或撞上障碍物的惩罚;r2表示斜向动作的移动距离平衡惩罚;r3表示启发式奖励,通过计算AGV与终点间的曼哈顿距离并与运行前的距离进行比较,给予相应的奖励;r4表示AGV到达终点的奖励,p
A
=(x
A
,y
A
)表示当前位置,x
A
、y
A
表示具体的横纵坐标,p

A
=(x

A
,y

A
)则表示前一时刻的位置;p
G
=(x
G
,y
G
)表示终点位置,下标G代表终点,a表示AGV执行的动作。7.如权利要求1所述的一种基于深度强化学习DQN的多AGV路径规划避障方法,其特征在于,DQN算法结合神经网络算法和Q

learning强化学习算法,在Q

learning中,利用表格记录和更新Q值,Q值的计算通过以下式子Q
π
(s,a)=E
π
[G
t
|S
t
=s,A
t
=a]式中Q
π
(s,a)表示根据策略E
π
,在时刻t时状态空间S
t
中的一个状态s下采取动作空间A
t
中的一个动作a的价值函数,回报G
t
表示为之后每一步k的奖励R
t+k+1
...

【专利技术属性】
技术研发人员:黄岩松姚锡凡
申请(专利权)人:华南理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1