【技术实现步骤摘要】
一种多Agent深度强化学习的单件作业车间调度方法
本专利技术涉及车间调度领域,所研究问题为生产中最常见的单件作业车间调度问题。
技术介绍
制造业是我国的支柱产业,现代制造企业生产环节多、协作关系复杂,合理的生产调度对提高企业生产效率、降低成本和缩短生产周期有着重要意义。单件作业车间调度问题(job-shopschedulingproblem,JSP)是最常见的作业车间调度问题,反映了在车间物料、工艺等约束下,调配制造任务与资源间的映射关系,该问题的研究对提升制造企业的生产效率有着重要意义,是学术界和工程界的广泛研究的课题。JSP问题求解复杂,是典型的NP-Hard问题。目前求解JSP问题的常用方法有最优化方法和元启发式算法。最优化方法通过数学规划法对作业车间调度问题进行建模求解,根据不同的作业车间调度问题,可以分别用整数规划法、混合整数规划法和动态规划法来描述。元启发式算法通过不断地迭代优化,可以在较短的时间内获得问题的近优解,元启发式算法根据其优化策略的不同可分为局部搜索算法、禁忌搜索算法、模拟退火算法、遗传算法 ...
【技术保护点】
1.一种多Agent深度强化学习的单件作业车间调度方法,其特征在于,包括以下步骤:/n步骤1、采用多Agent方法对作业车间调度环境进行分布式建模;/n在多Agent强化学习作业车间调度过程中,将全局状态S因式分解为m个Ag
【技术特征摘要】
1.一种多Agent深度强化学习的单件作业车间调度方法,其特征在于,包括以下步骤:
步骤1、采用多Agent方法对作业车间调度环境进行分布式建模;
在多Agent强化学习作业车间调度过程中,将全局状态S因式分解为m个Agi的局部状态Si依次输入多Agent强化学习系统,输出Agi当前执行的动作ai,改变全局状态S,获得奖励R,重复该过程直到所有Agi完成加工任务,其中,Agi对应第i个机床,i=1,...,m,m为机床的总个数,Si为Agi的局部状态,S={S1,…,Si,…,Sm},Ai为Ag…的局部动作集合;
步骤2、构建神经网络模型,对车间状态进行提取;
将全局状态S输入神经网络模型,神经网络模型输出每个工件被加工的概率P,在神经网络模型输出概率时,采用面向作业车间调度过程的概率函数P=f(a,Si|θi)表示在作业车间状态Si下执行动作a的概率P,θi表示状态Si下每个动作所对应的权重,使当前不可加工的工件及已加工完成的工件被选择的概率为零,有:
式中,表示状态Si下动作a所对应的权重,状态Si下动作x所对应的权重,x∈Si表示x为状态Si所有可能执行的动作;
步骤3、根据神经模型所提取车间状态,对加工工件进行选择:
在根据概率P进行动作选择时,将选择最大概率动作α=max(P)和按照概率分布进行动作选择α=random(P)进行结合,在当前最优决策中加入不确定性来设计动作选择机制,动作选择机制中存在人为设定的超参数c和随即生成的自然数d,d∈(0,1),当d大于超参数c时,选择概率最大的工件进行加工,当d小于超参数c时,按照概率分布选择加工工件,即有:
步骤4、设计作业车间多Agent交互机制,实现车间加工工件与车间环境之间的交互:
当Agi正在加工工序Oa,b,a∈Ai,那么在完成工序Oa,b后,Agi的局部动作集合Ai变为Ai:=Ai-a,而Agi′(i′=γ(Oa,b+1))被拓展为Ai′:=Ai+a,定义动作转移函数σi:
式中,a表示加工工序Oa,b对应的工件,b表示加工工序Oa,b对应的机床,γ(oa,b)表示加工工序Oa,b对应的加工时间,k表示作业车间调度问题中所有的机床;
步骤5、设计奖励函数对整个调度决策进行评估,并使用PolicyGradient算法通过更新神经网络权重参数,实现调度决策的更新。
2.如权利要...
【专利技术属性】
技术研发人员:张洁,赵树煊,汪俊亮,贺俊杰,
申请(专利权)人:东华大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。