一种基于改进奖惩机制的强化学习路网负载均衡调度方法技术

技术编号：38939413 阅读：34 留言：0更新日期：2023-09-25 09:39

本发明专利技术涉及一种基于强化学习的智能AGV路网负载均衡调度方法，其方法包括：步骤S1：利用坐标系建立栅格地图，在地图中设置障碍和添加任务模块；步骤S2：用改进Q学习算法训练得出Q矩阵，让智能AGV在路网中与环境进行交互，多次迭代循环得出最优路径规划路线；步骤S3：设置2000次任务量，将路网中运行的每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图；步骤S4：运用改进的奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中与环境进行交互，优化高负载区域。本发明专利技术所提方法，将负载因素考虑在强化学习的奖惩函数中，提出路径长度和路网负载结合，使路网负载均衡，规避了AGV因路网拥挤造成的速度慢和路径冲突问题。慢和路径冲突问题。慢和路径冲突问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进奖惩机制的强化学习路网负载均衡调度方法

[0001]本专利技术属于智能控制与调度
，具体涉及了一种基于改进奖惩机制的强化学习路网负载均衡调度方法。

技术介绍

[0002]近年来，随着我国人工智能和智能制造的不断发展，仓库车辆作为物资和物料搬运的关键设备，得到了越来越广泛的应用。目前智能物流行业的自动分拣等领域已经延伸到了普通工厂，现在工厂的配件运输和组装工作大部分还是由人工来操作，有些工厂已经配备智能路网配送体系，但系统整体运行不够流畅、运输时间较长，会导致整体路网运行效率低下。路网调度系统经过近70年的发展,整个调度从技术、产品种类和应用上都有了长足的发展。随着近些年来社会的进步，各国都提出了自己工业的发展规划。
[0003]在现有工业体系中，路网调度系统需要承担的任务量越来越大，任务更加多样化，其运行空间变得越来越大，路线变得更加复杂。自动导航车(Automated Guided Vehicles，AGV)运输的最优性能主要通过调度实现，主要包括任务分配、路径规划和冲突检测。在现有路网调度系统研究中，针对路径规划算法的研究最多，通过优化路径规划算法提高整体路网调度效率已经有很多成熟的解决方案，但对于调度系统的任务分配优化和负载均衡研究则相对较少。
[0004]智能仓储调度技术一般通过建立地图资源模型，通过计算机视觉进行智能工厂地图的建立，再运用深度学习算法对规划的路径进行优化，从而达到好的避障效果，提高调度的效率；深度学习在处理避障和调度的问题上可通过训练大量数据集得到优化目标的...

【技术保护点】

【技术特征摘要】
1.一种基于改进奖惩机制的强化学习路网负载均衡调度方法，其特征在于，包括：步骤S1：利用坐标系建立栅格地图，在地图中设置障碍和添加任务模块；步骤S2：用改进Q学习算法让智能AGV在路网中与环境进行交互，训练得出Q矩阵，多次迭代循环得出最优路径规划路线；步骤S3：设置100n(n∈N
+
)次任务量，将路网中运行的每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图；步骤S4：运用提出的改进奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中再次与环境进行交互，对路网中高负载区域进行优化。2.根据权利要求1所述的基于改进奖惩机制的强化学习路网负载均衡调度方法，其特征在于，所述步骤S2：用改进Q学习算法让智能AGV在路网中与环境进行交互，训练得出Q矩阵，多次迭代循环得出最优路径规划路线，包括：步骤S21：由训练AGV与环境交互得到的Q矩阵进行多次循环试错，找出最优路线，Q学习算法基本公式如式(1)所示；其中s，a表示当前的状态和行为，表示下一个状态及行为，学习参数γ在0到1之间，奖惩机制R在每一个状态和行为产生后都会给予奖惩；在本实施例中，智能AGV通过观察周围环境的变化(栅格地图中的具体位置信息)，根据自身当前所处的状态(AGV当前所处的位置)做出相应的动作(下一个要访问的位置)，每做出一个动作，环境都会发生变化，AGV就会得到一个新的下一时刻的状态s，然后产生新动作a并不断执行；步骤S22：设置奖惩机制R和学习参数γ，初始化Q值；步骤S23：随机选择一个初始状态s，在当前状态s的所有可能行动中选取一个行动a，得到下一个状态步骤S24：计算Q(s,a)，判断得到的Q矩阵是否收敛，不收敛则返回步骤S23，收敛则退出，完成Q矩阵的学习。3.根据权利要求1所述的基于改进奖惩机制的强化学习路网负载均衡调度方法，其特征在于，所述步骤S3：为了验证本方法的有效性，设置100n(n∈N
+
)次任务量，将路网中运行的每个AGV的路径长度进行记录，提取栅格地图中每个点的路网负载量，得出路网负载图，包括：步骤S31：路网地图两侧随机设置AGV，n取20，对2000次任务量的多输入多输出AGV进行路径规划；步骤S32：对多AGV路径的奖惩机制进行合理设置，AGV路径规划奖惩机制函数设置如式(2)所示；当AGV完成所有任务时，即到达目标状态时，给予AGV最高的累计奖励；若多个AGV在路
网中的同一位置相遇，会增加路网运行时间，则给予AGV同位置惩罚；AGV掉入陷阱，则给予陷阱惩罚；当AGV在路网中的其他状态时，到达终点前，每走一步都会给予一次其他状态惩罚；步骤S33：对智能AGV的输入输出设置实验参数，设置记忆库Memory容量D，多AGV同位置惩罚，折扣因子和初始值等；步骤S34：对所有完成任务的智能AGV进行路径统计，得出AGV均衡前的路网负载图。4.根据权利要求1所述的基于改进奖惩机制的强化学习路网负载均衡调度方法，其特征在于，所述步骤S4：运用提出的改进奖惩机制函数，将路径长度与路网负载相结合，让AGV在路网中再次与环境进行交互，对路网中高负载区域进行优化，包括：步骤S41：改进奖惩机制函数，将负载因素考虑在强化学习迭代过程的...

【专利技术属性】
技术研发人员：李慧，张秀梅，李文松，刘越，李佳男，
申请(专利权)人：长春工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人