【技术实现步骤摘要】
基于深度强化学习的动态作业车间调度优化方法及系统
[0001]本专利技术涉及动态作业车间调度
,特别是涉及基于深度强化学习的动态作业车间调度优化方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]作业车间调度问题(JSSP)是一个复杂的组合优化问题,同时,该问题在制造业中有着十分重要的应用,合理的调度可以有效利用现有的生产资源,减少生产时间,提高生产效率。在解决作业车间调度问题JSSP时,通常是先假定一个静态的生产环境,所有的加工信息都已事先知道,然后制定一个确定性的调度计划,在加工过程中不进行修改,但是,在实际生产中,这样的解决方法并不是有效的,因为在实际生产中,总是存在一些不可知的动态事件,例如,订单的插入、取消或修改,机器故障,加工时间的变化等等,这些都是需要考虑在内的,尤其是在当今现代化的工业生产中,更要去考虑一些动态的事件。因此动态作业车间调度问题(DJSSP)更加适合现代化的工业生产,解决动态作业车间调度问题对于推动制造业发展提 ...
【技术保护点】
【技术特征摘要】
1.基于深度强化学习的动态作业车间调度优化方法,其特征是,包括:获取当前决策时刻的合法作业本身的作业特征,和合法作业当前操作完成后要访问的机器的机器特征,将所述作业特征和所述机器特征串联拼接后,组成一个合法作业的状态特征向量,将所有合法作业的状态特征向量进行拼接,得到状态矩阵;将状态矩阵输入到训练后的智能体中,训练后的智能体输出每一个作业对应的被调度概率,选择概率最高的作业进行调度,完成在动态作业环境下的优化调度;其中,训练后的智能体,包括:特征提取网络、策略网络和价值网络;训练后的智能体的特征提取网络,对状态矩阵进行特征提取,提取出状态特征向量; 训练后的智能体的策略网络,对状态特征向量进行处理,输出每一个作业对应的被调度概率。2.如权利要求1所述的基于深度强化学习的动态作业车间调度优化方法,其特征是,所述智能体,包括:状态、动作、状态转移、奖励和策略;其中,智能体的状态,是状态矩阵;所述状态矩阵是由所有合法作业的状态特征向量拼接而成,每个合法作业的状态特征向量,包括:串联的作业特征和机器特征;所述作业特征,包括:当前就绪操作的处理时间、剩余操作的最大处理时间、剩余操作的最小处理时间、剩余操作的平均处理时间、剩余操作的总处理时间、剩余操作的数量、作业的完成率、和作业在完成其当前就绪操作后的松弛时间;所述机器特征,包括:机器队列中作业的最大处理时间、最小处理时间、平均处理时间、总处理时间、机器队列作业的最大松弛时间、最小松弛时间、和平均松弛时间。3.如权利要求1所述的基于深度强化学习的动态作业车间调度优化方法,其特征是,所述合法作业,是指:如果一个作业同时满足三种要求,则认定该作业是合法作业;三种要求:(1)作业已到达,但是尚未完成;(2)作业内部包括至少一个可调度的操作;(3)作业内部所包含的可调度操作所需要的机器,在当前时刻处于空闲状态。4.如权利要求2所述的基于深度强化学习的动态作业车间调度优化方法,其特征是,奖励,是在状态转换过程中所有已调度作业造成的延迟时间估计的总和;其中,每个已调度作业造成的延迟时间估计为第一部分和第二部分的总和;其中,第一部分是指队列中所有作业在被选中作业处理完后延迟时间估计增量的总和,每个作业延迟时间估计增量是指:;(1);(2)其中,为下标为的作业的交货期,为当前系统时间,为被选中要调度作业的操作的处理时间,为机器的机器队列,为机器队列中所有作业的延迟时间的增加;其中,第二部分是指:
;(3)其中,为作业的就绪操作的完成时间,,为机器上当前操作的完成的时间,为下标为的作业的交货期,作业就是被选中要调度的作业,是指作业在当前机器处理完后,到下一台机器会产生的部...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。