一种基于改进奖惩机制的强化学习路网负载均衡调度方法技术

技术编号:38939413 阅读:34 留言:0更新日期:2023-09-25 09:39
本发明专利技术涉及一种基于强化学习的智能AGV路网负载均衡调度方法,其方法包括:步骤S1:利用坐标系建立栅格地图,在地图中设置障碍和添加任务模块;步骤S2:用改进Q学习算法训练得出Q矩阵,让智能AGV在路网中与环境进行交互,多次迭代循环得出最优路径规划路线;步骤S3:设置2000次任务量,将路网中运行的每个AGV的路径长度进行记录,提取栅格地图中每个点的路网负载量,得出路网负载图;步骤S4:运用改进的奖惩机制函数,将路径长度与路网负载相结合,让AGV在路网中与环境进行交互,优化高负载区域。本发明专利技术所提方法,将负载因素考虑在强化学习的奖惩函数中,提出路径长度和路网负载结合,使路网负载均衡,规避了AGV因路网拥挤造成的速度慢和路径冲突问题。慢和路径冲突问题。慢和路径冲突问题。

【技术实现步骤摘要】
一种基于改进奖惩机制的强化学习路网负载均衡调度方法


[0001]本专利技术属于智能控制与调度
,具体涉及了一种基于改进奖惩机制的强化学习路网负载均衡调度方法。

技术介绍

[0002]近年来,随着我国人工智能和智能制造的不断发展,仓库车辆作为物资和物料搬运的关键设备,得到了越来越广泛的应用。目前智能物流行业的自动分拣等领域已经延伸到了普通工厂,现在工厂的配件运输和组装工作大部分还是由人工来操作,有些工厂已经配备智能路网配送体系,但系统整体运行不够流畅、运输时间较长,会导致整体路网运行效率低下。路网调度系统经过近70年的发展,整个调度从技术、产品种类和应用上都有了长足的发展。随着近些年来社会的进步,各国都提出了自己工业的发展规划。
[0003]在现有工业体系中,路网调度系统需要承担的任务量越来越大,任务更加多样化,其运行空间变得越来越大,路线变得更加复杂。自动导航车(Automated Guided Vehicles,AGV)运输的最优性能主要通过调度实现,主要包括任务分配、路径规划和冲突检测。在现有路网调度系统研究中,针对路径规划算法的研究最多,通过优化路径规划算法提高整体路网调度效率已经有很多成熟的解决方案,但对于调度系统的任务分配优化和负载均衡研究则相对较少。
[0004]智能仓储调度技术一般通过建立地图资源模型,通过计算机视觉进行智能工厂地图的建立,再运用深度学习算法对规划的路径进行优化,从而达到好的避障效果,提高调度的效率;深度学习在处理避障和调度的问题上可通过训练大量数据集得到优化目标的最优路线和最有效的调度方式,但是想要获取大量的已有数据集谈何容易,用少量数据集训练得到的数据往往欠拟合,结果不具有普遍性;现有技术一般通过在深度学习中增加一些算法使训练结果得到优化,然后利用调度系统让每个车辆在地图上“跑”起来,终端上可以显示各个车辆的状态信息。虽然现有技术可以使智能仓储的物料配送完成独立自主运输,但仍然会存在路径冲突和动作不一致的问题,最后导致路网发生堵塞等问题。
[0005]AGV技术在智能物流仓库中发展较快,但与智能工厂相比,后者的内部环境更为复杂,且物料大小和配送地点都不统一,这就需要调度系统可以精确的调度AGV,在环境复杂的路网中要快速有效的完成任务。现有技术大多运用分布式调度,即从路径规划的角度来考虑智能AGV的运行效率,进而实现合理避障和快速通过路网。现有的一些智能算法与路网负载相结合,智能算法只能处理小规模的AGV运行问题,与深度学习相比,前者在运行时间和运行路程中都存在路程过长和时间过久的问题。现有的集中式调度系统经常把运行路径最短作为优化目标,而智能AGV在路网中的真实情况确是多个AGV会集中在某个区域,经常发生冲突问题,这就导致最终的运行时间过久,任务完成不足等问题。

技术实现思路

[0006]为了解决上述技术问题,本专利技术实施例提供一种基于改进奖惩机制的强化学习路
网负载均衡调度方法,把AGV的运行路程和路网中的区域负载相结合,提出改进奖惩机制函数,通过改进Q学习算法让AGV和环境不断交互,训练得出Q矩阵,进而让路网中的高负载区域达到均衡。
[0007]本专利技术解决技术问题所采取的技术方案为:一种基于改进奖惩机制的强化学习路网负载均衡调度方法,包括:
[0008]步骤S1:利用坐标系建立栅格地图,在地图中设置障碍和添加任务模块;
[0009]步骤S2:用改进Q学习算法让智能AGV在路网中与环境进行交互,训练得出Q矩阵,多次迭代循环得出最优路径规划路线;
[0010]步骤S3:设置100n(n∈N
+
)次任务量,将路网中运行的每个AGV的路径长度进行记录,提取栅格地图中每个点的路网负载量,得出路网负载图;
[0011]步骤S4:运用提出的改进奖惩机制函数,将路径长度与路网负载相结合,让AGV在路网中再次与环境进行交互,对路网中高负载区域进行优化。
[0012]本专利技术的有益效果是:
[0013]1、本专利技术采取一种强化学习方法中的改进Q学习算法,AGV与环境进行实时交互,经过多次迭代循环寻找到完成任务的最优路径,AGV和环境交互产生的每一次状态和动作都储存在Q表中,以便对数据进行随时调用。本专利技术通过一种试错机制来优化最优路径,降低路网负载,大大节省了相比于传统智能算法训练的时间,改进Q学习算法的整体路网负载也较传统算法更为流畅。
[0014]2、本专利技术针对智能AGV在路网负载中的拥堵问题,通过智能体AGV和环境的交互寻找最优策略,为解决路网中的高负载问题,将负载因素考虑在强化学习迭代过程的奖惩函数中,提出路径长度和路网负载量结合作为奖惩,最终使路网负载均衡,规避了大量AGV因路网拥挤造成的速度过慢和路径冲突问题。
附图说明
[0015]图1是本专利技术实施例中一种基于改进奖惩机制的强化学习路网负载均衡调度方法的流程图;
[0016]图2是强化学习基本原理图;
[0017]图3是改进Q学习算法流程图;
[0018]图4是AGV路径规划流程图;
[0019]图5是均衡路网高负载区域流程图;
[0020]图6是路网负载模型建立示意图。
具体实施方式
[0021]本专利技术提供了一种基于改进奖惩机制的强化学习路网负载均衡调度方法,通过建立路网地图模型,设置障碍和添加AGV模块,用改进奖惩机制的Q学习算法,让智能AGV在路网中与环境进行交互,训练得出Q矩阵,多次迭代循环得出最优路径规划路线;将路网中每个AGV的路径长度进行记录,提取栅格地图中每个点的路网负载量,得出路网负载图;运用提出的改进奖惩机制函数,将路径长度与路网负载相结合,让AGV在路网中再次与环境进行交互,对路网中高负载区域进行优化。
[0022]下面结合附图和实例对本专利技术做进一步详细说明。
[0023]如图1所示,本专利技术实施例提供的一种基于改进奖惩机制的强化学习路网负载均衡调度方法,包括下述步骤:
[0024]步骤S1:利用坐标系建立栅格地图,在地图中设置障碍和添加任务模块;
[0025]步骤S2:用改进Q学习算法让智能AGV在路网中与环境进行交互,训练得出Q矩阵,多次迭代循环得出最优路径规划路线;
[0026]步骤S3:设置100n(n∈N
+
)次任务量,将路网中运行的每个AGV的路径长度进行记录,提取栅格地图中每个点的路网负载量,得出路网负载图;
[0027]步骤S4:运用提出的改进奖惩机制函数,将路径长度与路网负载相结合,让AGV在路网中再次与环境进行交互,对路网中高负载区域进行优化。
[0028]在一个实施例中,上述步骤S1中,利用坐标系建立栅格地图,在地图中设置障碍和添加任务模块,并测试地图功能的准确性,包括:
[0029]首先,以X轴和Y轴的正半轴建立直角坐标系,如原点坐标为(0,0),由于AGV在地图中是运行路线是不断变化的,所以设定每个AGV的坐标为变量(x,y),AGV可以在左右两边随本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进奖惩机制的强化学习路网负载均衡调度方法,其特征在于,包括:步骤S1:利用坐标系建立栅格地图,在地图中设置障碍和添加任务模块;步骤S2:用改进Q学习算法让智能AGV在路网中与环境进行交互,训练得出Q矩阵,多次迭代循环得出最优路径规划路线;步骤S3:设置100n(n∈N
+
)次任务量,将路网中运行的每个AGV的路径长度进行记录,提取栅格地图中每个点的路网负载量,得出路网负载图;步骤S4:运用提出的改进奖惩机制函数,将路径长度与路网负载相结合,让AGV在路网中再次与环境进行交互,对路网中高负载区域进行优化。2.根据权利要求1所述的基于改进奖惩机制的强化学习路网负载均衡调度方法,其特征在于,所述步骤S2:用改进Q学习算法让智能AGV在路网中与环境进行交互,训练得出Q矩阵,多次迭代循环得出最优路径规划路线,包括:步骤S21:由训练AGV与环境交互得到的Q矩阵进行多次循环试错,找出最优路线,Q学习算法基本公式如式(1)所示;其中s,a表示当前的状态和行为,表示下一个状态及行为,学习参数γ在0到1之间,奖惩机制R在每一个状态和行为产生后都会给予奖惩;在本实施例中,智能AGV通过观察周围环境的变化(栅格地图中的具体位置信息),根据自身当前所处的状态(AGV当前所处的位置)做出相应的动作(下一个要访问的位置),每做出一个动作,环境都会发生变化,AGV就会得到一个新的下一时刻的状态s,然后产生新动作a并不断执行;步骤S22:设置奖惩机制R和学习参数γ,初始化Q值;步骤S23:随机选择一个初始状态s,在当前状态s的所有可能行动中选取一个行动a,得到下一个状态步骤S24:计算Q(s,a),判断得到的Q矩阵是否收敛,不收敛则返回步骤S23,收敛则退出,完成Q矩阵的学习。3.根据权利要求1所述的基于改进奖惩机制的强化学习路网负载均衡调度方法,其特征在于,所述步骤S3:为了验证本方法的有效性,设置100n(n∈N
+
)次任务量,将路网中运行的每个AGV的路径长度进行记录,提取栅格地图中每个点的路网负载量,得出路网负载图,包括:步骤S31:路网地图两侧随机设置AGV,n取20,对2000次任务量的多输入多输出AGV进行路径规划;步骤S32:对多AGV路径的奖惩机制进行合理设置,AGV路径规划奖惩机制函数设置如式(2)所示;当AGV完成所有任务时,即到达目标状态时,给予AGV最高的累计奖励;若多个AGV在路
网中的同一位置相遇,会增加路网运行时间,则给予AGV同位置惩罚;AGV掉入陷阱,则给予陷阱惩罚;当AGV在路网中的其他状态时,到达终点前,每走一步都会给予一次其他状态惩罚;步骤S33:对智能AGV的输入输出设置实验参数,设置记忆库Memory容量D,多AGV同位置惩罚,折扣因子和初始值等;步骤S34:对所有完成任务的智能AGV进行路径统计,得出AGV均衡前的路网负载图。4.根据权利要求1所述的基于改进奖惩机制的强化学习路网负载均衡调度方法,其特征在于,所述步骤S4:运用提出的改进奖惩机制函数,将路径长度与路网负载相结合,让AGV在路网中再次与环境进行交互,对路网中高负载区域进行优化,包括:步骤S41:改进奖惩机制函数,将负载因素考虑在强化学习迭代过程的...

【专利技术属性】
技术研发人员:李慧张秀梅李文松刘越李佳男
申请(专利权)人:长春工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1