当前位置: 首页 > 专利查询>东华大学专利>正文

一种多Agent深度强化学习的单件作业车间调度方法技术

技术编号:26479621 阅读:40 留言:0更新日期:2020-11-25 19:24
本发明专利技术针对单件作业车间调度问题约束复杂、解空间种类多,传统的数学规划算法和元启发算法无法满足大规模作业车间调度问题的快速求解的特点,提出了基于多Agent深度强化学习的单件作业车间调度方法。本发明专利技术首先设计多Agent间的通信机制,采用多Agent方法对单件作业车间调度问题的强化学习建模;其次构建深层神经网络对车间状态进行提取,并在此基础上设计作业车间动作选择机制,实现了车间加工工件与车间环境之间的交互;再次,设计奖励函数对整个调度决策进行评估,并使用PolicyGradient算法对调度决策进行更新,以得到更优秀的调度结果;最后使用标准数据集对算法性能进行了性能评估与验证。本发明专利技术能够解决作业车间调度问题,丰富了作业车间调度问题的方法体系。

【技术实现步骤摘要】
一种多Agent深度强化学习的单件作业车间调度方法
本专利技术涉及车间调度领域,所研究问题为生产中最常见的单件作业车间调度问题。
技术介绍
制造业是我国的支柱产业,现代制造企业生产环节多、协作关系复杂,合理的生产调度对提高企业生产效率、降低成本和缩短生产周期有着重要意义。单件作业车间调度问题(job-shopschedulingproblem,JSP)是最常见的作业车间调度问题,反映了在车间物料、工艺等约束下,调配制造任务与资源间的映射关系,该问题的研究对提升制造企业的生产效率有着重要意义,是学术界和工程界的广泛研究的课题。JSP问题求解复杂,是典型的NP-Hard问题。目前求解JSP问题的常用方法有最优化方法和元启发式算法。最优化方法通过数学规划法对作业车间调度问题进行建模求解,根据不同的作业车间调度问题,可以分别用整数规划法、混合整数规划法和动态规划法来描述。元启发式算法通过不断地迭代优化,可以在较短的时间内获得问题的近优解,元启发式算法根据其优化策略的不同可分为局部搜索算法、禁忌搜索算法、模拟退火算法、遗传算法、粒子群搜索算法和人本文档来自技高网...

【技术保护点】
1.一种多Agent深度强化学习的单件作业车间调度方法,其特征在于,包括以下步骤:/n步骤1、采用多Agent方法对作业车间调度环境进行分布式建模;/n在多Agent强化学习作业车间调度过程中,将全局状态S因式分解为m个Ag

【技术特征摘要】
1.一种多Agent深度强化学习的单件作业车间调度方法,其特征在于,包括以下步骤:
步骤1、采用多Agent方法对作业车间调度环境进行分布式建模;
在多Agent强化学习作业车间调度过程中,将全局状态S因式分解为m个Agi的局部状态Si依次输入多Agent强化学习系统,输出Agi当前执行的动作ai,改变全局状态S,获得奖励R,重复该过程直到所有Agi完成加工任务,其中,Agi对应第i个机床,i=1,...,m,m为机床的总个数,Si为Agi的局部状态,S={S1,…,Si,…,Sm},Ai为Ag…的局部动作集合;
步骤2、构建神经网络模型,对车间状态进行提取;
将全局状态S输入神经网络模型,神经网络模型输出每个工件被加工的概率P,在神经网络模型输出概率时,采用面向作业车间调度过程的概率函数P=f(a,Si|θi)表示在作业车间状态Si下执行动作a的概率P,θi表示状态Si下每个动作所对应的权重,使当前不可加工的工件及已加工完成的工件被选择的概率为零,有:



式中,表示状态Si下动作a所对应的权重,状态Si下动作x所对应的权重,x∈Si表示x为状态Si所有可能执行的动作;
步骤3、根据神经模型所提取车间状态,对加工工件进行选择:
在根据概率P进行动作选择时,将选择最大概率动作α=max(P)和按照概率分布进行动作选择α=random(P)进行结合,在当前最优决策中加入不确定性来设计动作选择机制,动作选择机制中存在人为设定的超参数c和随即生成的自然数d,d∈(0,1),当d大于超参数c时,选择概率最大的工件进行加工,当d小于超参数c时,按照概率分布选择加工工件,即有:



步骤4、设计作业车间多Agent交互机制,实现车间加工工件与车间环境之间的交互:
当Agi正在加工工序Oa,b,a∈Ai,那么在完成工序Oa,b后,Agi的局部动作集合Ai变为Ai:=Ai-a,而Agi′(i′=γ(Oa,b+1))被拓展为Ai′:=Ai+a,定义动作转移函数σi:



式中,a表示加工工序Oa,b对应的工件,b表示加工工序Oa,b对应的机床,γ(oa,b)表示加工工序Oa,b对应的加工时间,k表示作业车间调度问题中所有的机床;
步骤5、设计奖励函数对整个调度决策进行评估,并使用PolicyGradient算法通过更新神经网络权重参数,实现调度决策的更新。


2.如权利要...

【专利技术属性】
技术研发人员:张洁赵树煊汪俊亮贺俊杰
申请(专利权)人:东华大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1