【技术实现步骤摘要】
一种基于时序差分的混合流水车间调度方法
本专利技术属于混合流水车间调度控制技术,具体涉及一种基于时序差分的混合流水车间调度方法。
技术介绍
混合流水车间调度问题(Hybridflow-shopschedulingproblem,HFSP),又称柔性流水车间调度问题,由Salvador在1973年首先提出,该问题可以看作是经典流水车间调度问题与并行机调度问题的结合,其特征是工件在加工过程中存在并行机阶段,在确定工件加工顺序的同时进行机器分配。在HFSP问题中,至少有一个阶段中处理机的个数大于1,这大大增加了HFSP的求解难度,已证明处理机数分别为2和1的两阶段的HFSP是NP-hard问题。目前,精确算法、启发式和元启发式算法是求解流水车间调度问题的三类经典方法。精确算法包括数学建模、分支定界法,能获得小规模问题的最优解;对于大规模实际调度问题,启发式算法或元启发式算法因能在较短的时间获得近优解而受到研究者的关注。然而,启发式算法或元启发式算法是针对具体实例设计相应的规则和算法,不适应于复杂多变的实际生产环境。强化学习 ...
【技术保护点】
1.一种基于时序差分的混合流水车间调度方法,其特征在于:以最小化加权平均完工时间为调度目标,结合神经网络和强化学习,采用时序差分法训练模型,利用已有的调度知识和经验规则提炼调度决策候选行为,结合强化学习在线评价-执行机制,从而为调度系统的每次调度决策选取最优组合行为策略,具体包括如下步骤:/n步骤1:根据混合流水车间的生产特征获得生产约束和目标函数,并引入机器状态特征,构建混合流水车间调度环境,并进行初始化设置,初始化容量为N的经验记忆库D,随机初始化状态价值深度神经网络V(θ)及目标网络V(θ
【技术特征摘要】
1.一种基于时序差分的混合流水车间调度方法,其特征在于:以最小化加权平均完工时间为调度目标,结合神经网络和强化学习,采用时序差分法训练模型,利用已有的调度知识和经验规则提炼调度决策候选行为,结合强化学习在线评价-执行机制,从而为调度系统的每次调度决策选取最优组合行为策略,具体包括如下步骤:
步骤1:根据混合流水车间的生产特征获得生产约束和目标函数,并引入机器状态特征,构建混合流水车间调度环境,并进行初始化设置,初始化容量为N的经验记忆库D,随机初始化状态价值深度神经网络V(θ)及目标网络V(θ-),以实现与智能体的交互,转入步骤2;
步骤2:智能体以ε的概率随机选择一个行为at或是根据执行行为后的状态价值选择当前最优行为at,执行最优行为后得到奖励rt+1和下一个状态st+1,将当前状态的状态特征、执行该行为得到奖励rt+1、下一个状态st+1的状态特征,以及是否到达终止状态共同记为单步状态转移(φt,rt+1,φt+1,is_end),将得到的单步状态转移存储至记忆库D中,根据TD-error计算比例存至优先级队列P,转入步骤3;
步骤3:判断记忆库D中的单步状态转移数量是否达到设定的阈值Batch_Size:
若达到设定的阈值Batch_Size,则转入步骤4;
若没有达到设定的阈值Batch_Size,则重复步骤2;
步骤4:随机从记忆库D中提取一定数量的单步状态转移,用下一状态和执行对应行为获得的奖励来计算当前状态的目标价值,计算目标价值与网络输出价值之间的均方差代价,使用小批量梯度下降算法更新参数,进入步骤5;
步骤5:判断当前智能体是否到达结束状态,若达到,进入步骤6;若没有,重复步骤2;
步骤6:判断调度系统是否经历过Max_Episode个完整的状态转移序列:
若达到,则进行步骤7;
若没有达到,初始化调度环境,重置机器与工件的状态,重复步骤2;
步骤7:输出最优状态序列对应的行为策略组合a1,a2,…。
2.根据权利要求1所述的基于时序差分的混合流水车间调度方法,其特征在于:所述步骤1中,机器状态特征如下:
混合流水车间中第i台机器Mi的第k个特征记作fi,k,l表示工序总数,对于前l-1道工序的所属机器,共定义13个实值特征fi,k,其中1≤k≤13,对于第l道工序所属机器共定义9个实值特征fi,k,其中1≤k≤9,所定义的状态特征集共同了揭示环境所处的全局和局部信息;
状态特征的定义如表1所示:
表1机器状态特征定义表
在此对表中使用到的参数做统一说明:q表示第q道工序,m表示机器总数,l表示工序总数,Qq表示第q道工序的等待队列,n表示第q道工序共有n件待加工工件,pq表示第q道工序所有待加工工件的平均加工时间,pq,j表示第q道工序的第j件工件的加工时间,Jj表示等待队列Qq中的工件。
3.根据权利要求1所述的基于时序差分的混合流水车间调度方法,其特征在于:步骤2中,智能体以ε的概率随机选择一个行为at或是根据执行行为后的状态价值选择当前最优行为at,执行最优...
【专利技术属性】
技术研发人员:陆宝春,陈志峰,顾钱,翁朝阳,张卫,张哲,
申请(专利权)人:南京理工大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。