一种基于局部距离视野强化学习的多AGV调度方法技术

技术编号：41404627 阅读：6 留言：0更新日期：2024-05-20 19:30

本发明专利技术属于AGV调度技术领域，具体涉及一种基于局部距离视野强化学习的多AGV调度方法。所述方法包括：根据地图信息构建拓扑图；将拓扑图信息转化为基于局部视野的距离信息，以局部视野的距离信息表示每个AGV智能体的当前状态；构建强化学习环境；在所述强化学习环境中构建强化学习模型，地图中的多个AGV利用A2C强化学习方法进行分布式的强化学习训练，以实现高效的分布式多AGV协同调度。本发明专利技术提供的方法将每个AGV作为独立的智能体，通过局部视野距离表示AGV状态，利用强化学习算法逐步优化调度策略，以实现高效的分布式多AGV协同调度。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于agv调度，具体涉及一种基于局部距离视野强化学习的多agv调度方法。

技术介绍

1、自动引导车辆（automated guided vehicle，agv）是一种无人驾驶的运输设备，其基础原理主要依赖于精确的导航系统和控制算法。agv通过内置的传感器（如激光扫描仪、rfid标签读取器）来识别环境中的标志、磁条或二维码等导航标记，并根据这些标记来规划其行驶路径。同时，agv还配备了复杂的控制系统，能够根据任务需求自主决策，如选择最佳路径、避让障碍物、进行任务分配等。此外，agv还通过无线通信技术与中央调度系统保持实时连接，接收任务指令、上传运行状态，实现与其他agv或物流系统的协同作业。

2、随人工智能和物联网技术的蓬勃发展，agv技术研发也取得重大突破。一方面，导航和控制算法持续精进，增强了agv在复杂环境和多元任务下的适应性；另一方面，agv的硬件性能也不断提升，如电池寿命增强、载荷量加大等，并正逐步融入更广泛的智能生态系统。

3、然而，现有agv技术仍面临若干挑战，尤其是在复杂动态环境下的感知决策能力和多agv协同操作方面。具体表现为agv需在快速响应环境变化和突发事件的同时，优化与其他agv及人类操作员的安全、高效协同。现有的agv导航与调度技术在处理多agv之间的实时协作时，其效能和鲁棒性有待提升。随着agv数量的增加，传统调度算法可能出现计算资源需求迅速飙升的问题，从而限制了系统在大型项目中的实用性和稳定性。为此，学术界和工业界日益关注如何运用深度学习和强化学习等前沿算法革新agv调度机制。

4、强化学习作为一种基于智能体与环境互动的机器学习范式，致力于通过反复试错学习最优行为策略。智能体采取行动影响环境状态，依据反馈的奖励信号调整其行为，力求最大化累积奖励。这一方法已在游戏、自然语言处理、机器人控制、自动驾驶等多个领域大放异彩。

5、在agv调度应用中，强化学习是一种新兴的方法，因为它允许agv智能体适应性地学习并优化行驶路径及任务分配策略。在面对复杂、难以建模的动态环境时，强化学习算法通过不断的实践探索和策略调整，教导agv在当前环境状态下选择最优路径行动，以达成长期奖励最大化的目标。然而，如何描述agv的当前状态，如何设定状态集和动作集，如何设定奖励以及如何构建的网络，决定了强化学习的最终效果，也是强化学习方法的难点所在。

技术实现思路

1、针对上述技术问题，本专利技术提出了一种基于局部距离视野强化学习的多agv调度方法。该方法能够帮助agv智能体在遵循拓扑地图结构的前提下，自适应地学习最优路径和任务分配策略，确保在保障agv之间安全距离的同时，有效避免交通拥堵和路径冲突，并通过分布式的学习和调度，显著提升了大规模agv系统在动态环境下的协同调度效率和整体性能。

2、本专利技术采用的技术方案为：

3、一种基于局部距离视野强化学习的多agv调度方法，所述方法包括：

4、根据地图信息构建拓扑图:解析地图信息，根据地图信息构建拓扑图；且构建拓扑图后，创建地图栅格索引；

5、将拓扑图信息转化为基于局部视野的距离信息，以局部视野的距离信息表示每个agv智能体的当前状态；

6、构建强化学习环境：强化学习环境涵盖了所有agv的状态集合和动作集合；强化学习环境基于状态集和动作集设定奖励函数；

7、在所述强化学习环境中构建强化学习模型，地图中的多个agv利用a2c强化学习方法进行分布式的强化学习训练，以实现高效的分布式多agv协同调度。

8、进一步地，所述根据地图信息构建拓扑图，具体包括：

9、（1）解析地图信息：将地图信息m中的各类节点定义为站点，并将各节点之间的实际连接关系定义为道路；

10、（2）根据地图信息构建拓扑图：将地图信息m中的站点 v映射为拓扑图中的顶点集v，记为：

11、；

12、其中，n表示地图中站点的总数；

13、定义加权无向边集e：

14、；

15、其中，每条边表示从顶点到顶点的道路存在，且采用权重来表示从顶点vi到顶点vj道路的损耗；

16、将整个地图信息m 转化为一个加权无向图 g，。

17、进一步地，构建拓扑图后，创建地图栅格索引：

18、；

19、v 为拓扑图中的顶点集，e 为加权无向边集，即相互连接的道路集合；表示二维空间。

20、进一步地，所述将拓扑图信息转化为基于局部视野的距离信息，根据局部视野的距离信息表示每个agv智能体的当前状态，具体为：

21、（1）根据agv智能体当前站点获取邻接站点：

22、获取agv智能体当前所在位置以及所述agv智能体应前往的目标站点，并根据agv智能体所在位置推断agv智能体下一个已经规划并前往的站点，其中，agv智能体当前所在位置以及所述agv智能体应前往的目标站点信息均从调度平台获取。

23、以站点作为所述agv智能体的规划起始点，以站点的邻接站点集合作为所述agv智能体下一步规划的前往的站点的集合，其中，表示站点在拓扑图中的邻接点集合：

24、；

25、其中，站点表示邻接站点集合中的站点，；

26、2）计算邻接站点的距离信息：

27、对于邻接站点集合中的每个站点分别计算以下两种距离信息：

28、计算站点到当前agv的目标站点的最近拓扑距离，记作：

29、；

30、表示在拓扑图中从节点到节点的最短路径长度；

31、计算站点到和当前agv最近的agv所在站点的拓扑距离，记作：

32、；

33、为从节点到除当前agv之外最近的一个或多个agv所在节点的最短路径长度；

34、（3）根据步骤（2）中距离信息表示每个agv的状态：

35、对于邻接站点集合中的每个站点将所述与作为相应agv的状态s，所有agv的所有状态组成状态集s；

36、动作集a为表示如下：

37、；

38、表示集合中站点的数量；因此，动作集a为0到du的整数集合，du表示加权无向图g中所有站点的最大度；

39、对于某一动作表示规划相应agv的下一站点为邻接站点中的第a个站点。

40、进一步地，所述构建强化学习环境的方法为：

41、建立具有拓扑性质的强化学习环境，称为；涵盖了所有agv的状态集合s和动作集合a；

42、在时间步t，状态包含了agv的位置和agv状态，所述agv状态包括拓扑距离与拓扑距离；

43、动作包含了所有agv在时间步t选择的行动决策；强化学习环境通过实时通讯获取调度平台提供的状态信息；

44、强化学习环境基于状态集和动作集设定奖励函数：

45本文档来自技高网...

【技术保护点】

1.一种基于局部距离视野强化学习的多AGV调度方法，其特征在于，所述方法包括：

2.根据权利要求1所述一种基于局部距离视野强化学习的多AGV调度方法，其特征在于，所述根据地图信息构建拓扑图，具体包括：

3.根据权利要求2所述基于局部距离视野强化学习的多AGV调度方法，其特征在于，构建拓扑图后，创建地图栅格索引：

4.根据权利要求3所述基于局部距离视野强化学习的多AGV调度方法，其特征在于，所述将拓扑图信息转化为基于局部视野的距离信息，根据局部视野的距离信息表示每个AGV智能体的当前状态，具体为：

5.根据权利要求4所述基于局部距离视野强化学习的多AGV调度方法，其特征在于，所述构建强化学习环境的方法为：

6.根据权利要求5所述基于局部距离视野强化学习的多AGV调度方法，其特征在于，所述即时奖励的计算公式为：

7.根据权利要求6所述基于局部距离视野强化学习的多AGV调度方法，其特征在于，在所述强化学习环境中构建强化学习模型；地图中的多个AGV利用所述强化学习模型进行分布式的强化学习训练，以实现高效的分布式多AGV协同调度，具体为：

8.根据权利要求7所述基于局部距离视野强化学习的多AGV调度方法，其特征在于，所述Actor策略网络和所述Critic价值网络使用相同的网络结构，所述网络结构由一维卷积网络与多层感知机MLP网络构成。

...

【技术特征摘要】

1.一种基于局部距离视野强化学习的多agv调度方法，其特征在于，所述方法包括：

2.根据权利要求1所述一种基于局部距离视野强化学习的多agv调度方法，其特征在于，所述根据地图信息构建拓扑图，具体包括：

3.根据权利要求2所述基于局部距离视野强化学习的多agv调度方法，其特征在于，构建拓扑图后，创建地图栅格索引：

4.根据权利要求3所述基于局部距离视野强化学习的多agv调度方法，其特征在于，所述将拓扑图信息转化为基于局部视野的距离信息，根据局部视野的距离信息表示每个agv智能体的当前状态，具体为：

5.根据权利要求4所述基于局部距离视野强化学习的多agv调度方法...

【专利技术属性】
技术研发人员：李泽昊，郑艳伟，徐臻，刘余，于东晓，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人