一种基于DQN的飞机大修车间实时调度方法技术

技术编号:24171701 阅读:35 留言:0更新日期:2020-05-16 03:10
本发明专利技术公开了一种基于DQN的飞机大修实时调度方法,属于机器学习与智能制造领域;通过物联网技术获取飞机大修车间实时信息,并以此为基础,建立关于飞机大修车间调度问题的马尔科夫决策模型。利用实时信息对DQN方法进行训练,使其具有自适应的飞机大修车间实时调度能力。同时使用两个具有相同结构的Q网络和经验回放策略来提高DQN方法的训练速度和训练效果。利用该方法进行飞机大修车间实时调度,能够有效缩短飞机大修完工时间。

A real-time scheduling method of aircraft overhaul workshop based on dqn

【技术实现步骤摘要】
一种基于DQN的飞机大修车间实时调度方法
本专利技术属于机器学习与智能制造领域,具体涉及一种基于DQN的飞机大修车间实时调度方法。
技术介绍
为了提高市场竞争力,飞机大修企业必须制定合理的调度策略,传统的飞机大修车间调度方法主要集中在传统智能算法的应用方面。然而随着当今飞机大修过程变得越来越复杂,大修车间环境也变得难以预测,传统的调度方法已经无法满足大修过程的需求;传统的调度方法事先进行任务分配,不考虑车间的实时信息,导致计划与实际生产产生较大的偏差,如文献《庄新村,卢宇灏,李从心.基于遗传算法的车间调度问题[J].计算机工程,2006(01):199-200+203.》。尤其是在复杂的飞机大修车间环境下,传统的调度方法会面临稳定性不高,自适应能力差的问题。因此,需要一种结合前沿技术并具有良好自适应能力的飞机大修车间实时调度方法。
技术实现思路
要解决的技术问题:为了避免现有技术的不足之处,本专利技术提出一种基于DQN(DeepQ-Learing,深度Q网络)的飞机大修车间实时调度方法,包括DQN训练阶段和基于DQN的飞机大修实时调度阶段;基于从飞机大修车间获得的实时信息,DQN制定了相应的调度规则,输入是有关车间的实时信息,输出是调度规则。一旦空闲机器出现在车间,缓冲区中的任务就会根据DQN提供的调度规则进行分配。执行相应的调度规则后,系统进入下一个状态,并且此循环继续进行,直到处理完所有任务为止。本专利技术的技术方案是:一种基于DQN的飞机大修车间实时调度方法,其特征在于具体步骤如下:步骤一:利用物联网技术收集飞机大修车间中产生的实时信息,所述实时信息包括加工机器的完好率,任务缓冲区中的任务总数以及机器数量;步骤二:通过步骤一获取飞机大修车间的实时信息后,将飞机大修实时调度模型构造为马尔科夫决策模型,将实时信息转化为实时状态;构筑所述马尔科夫决策模型包括状态空间设置、动作空间设置和奖励函数设置;1)状态空间设置:通过3个特征变量μt、Et、Bt来定义飞机大修车间的实时状态;其中,μt表示加工机器在时间步t的完好率,Et表示在时间步t缓冲区中所有任务的预期平均EPT,Bt代表在时间步t处缓冲区的容量比;2)动作空间设置:采用先进先出、最短处理时间、最长处理时间三种作业车间调度规则作为马尔科夫决策模型的动作;3)奖励函数设置:奖励函数包括即时奖励和最终奖励,所述即时奖励r1由当前时刻车间所处的环境给定,公式如下:其中,V是所有机器修理时间的方差,tm是机器mj截止到当前时刻的总的修理时间,是t1到tm的平均值,C1是一个设定的常数;所述最终奖励r2是等到所有的任务处理完,根据完工时间计算而得,公式如下:其中C2和C3是常数,TMS是完工时间;步骤三:通过步骤一和步骤二得出飞机大修车间实时状态,将所述实时状态信息存储在记忆库中,随机抽取部分状态信息、动作以及奖励进行DQN训练;步骤四:经过步骤一至步骤三,DQN完成训练;在实际飞机大修车间调度中,将车间实时状态输入到训练完成的DQN中,然后输出调度规则,用于飞机大修车间的动作;以上为一个闭环过程,一直持续直至所有大修任务修理完成。本专利技术的进一步技术方案是:所述DQN的训练过程包括Q网络和经验回放,所述Q网络包括主Q网络和目标Q网络。有益效果本专利技术的有益效果在于:本专利技术提出了一种基于DQN的飞机大修车间实时调度方法,首先,通过物联网技术获取飞机大修车间实时信息。基于这些信息,将飞机大修车间实时调度问题转化为一个马尔科夫决策问题。马尔科夫决策问题的模型定义包括动作空间设置、状态空间设置、奖励函数设置。使用该DQN方法来求解马尔科夫决策问题的最优解。在该方法的训练过程中,利用配置记忆库来降低训练信息之间的关联度,提高方法的训练速度。经过多次训练,得到训练好的DQN方法。和传统的调度方法不同,DQN方式是根据大修车间的实时信息而做出决策的,这使得该方法能够很好的应对飞机大修环境的动态变化,具有较高的稳定性和自适应性。验证还表明,该方法能够有效的缩短飞机大修完工时间。附图说明图1为本专利技术一种基于DQN的飞机大修实时调度方法流程图。具体实施方式下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。本实施是一种基于DQN的飞机大修实时调度方法。随着物联网技术在飞机大修工作车间中的快速发展,可以获得大量的实时数据,从而促进了高效的实时调度。但是,车间中的许多不确定性,例如机器故障,不确定的任务处理时间等,都给实时调度带来了严峻的挑战。为了解决这些挑战,针对采用物联网的灵活工作车间,提出了一种使用DQN的高效实时调度方法,以最大程度地缩短完工时间。实时调度问题被表述为马尔可夫决策过程。然后,提出了一种新颖的基于DQN的实时调度方法来确定该问题的最佳策略,通过该方法可以获取合适的规则来执行针对各种车间状态的调度。参阅图1,本实施基于DQN的飞机大修实时调度方法。主要分为两个方面,分别是马尔科夫决策模型的建立以及DQN的训练过程。包括以下步骤:第一步,利用物联网技术从飞机大修车间中收集实时信息,所述实时信息包括加工机器的完好率,任务缓冲区中的任务总数以及机器数量;这些信息的收集对于后面的DQN的训练至关重要。第二步,马尔科夫决策问题模型的建立。马尔科夫决策问题模型可以很好地描述随机动力学系统。在本文中,我们应用具有离散时间步长的有限马尔科夫决策问题模型来描述实时飞机大修调度。具体而言,任何两台机器空闲的时间间隔是两个相邻时间步t之间的时间间隔。在时间步骤t,我们观察到系统状态st,该状态包括有关车间信息,分别是加工机器的完好率,任务缓冲区中的任务总数以及机器数量。有了这些信息,我们将选择适当的操作。执行此操作后,我们可以观察新系统状态st+1的状态,并在时间步t+1处选择操作。马尔科夫决策问题模型提供了一种数学体系结构,用于在结果部分随机且部分受决策者控制的情况下对决策过程进行建模。马尔科夫决策问题模型是一个四元组<S,A,T,R>,其中S是包含所有状态的有限集,A是包含所有动作的有限集,T是定义为T:S×A×S→[0,1]的状态转移概率S→[0,1],R是定义为R:的奖励方程。考虑到任务的随机到达,EPT不确定性,随机机器故障等,我们定义的飞机大修实时调度的马尔科夫决策问题模型的详细定义如下。1.状态空间定义在时间步t,系统状态定义为向量st=(μt,Et,Bt),其中包含三种类型的状态指示符。1)μt表示加工机器在时间步t的完好率,即其中,m′代表在时间步t的非故障机器的数量。它用于描述时间步t时整个系统的处理能力。m代表车间中所有机器的数量。2)Et表示在时间步t缓冲区中所有任务的预期平均EPT(Estimatedprocessingtime,估计处理时间),即其中Ti代表本文档来自技高网...

【技术保护点】
1.一种基于DQN的飞机大修车间实时调度方法,其特征在于具体步骤如下:/n步骤一:利用物联网技术收集飞机大修车间中产生的实时信息,所述实时信息包括加工机器的完好率,任务缓冲区中的任务总数以及机器数量;/n步骤二:通过步骤一获取飞机大修车间的实时信息后,将飞机大修实时调度模型构造为马尔科夫决策模型,将实时信息转化为实时状态;构筑所述马尔科夫决策模型包括状态空间设置、动作空间设置和奖励函数设置;/n1)状态空间设置:通过3个特征变量μ

【技术特征摘要】
1.一种基于DQN的飞机大修车间实时调度方法,其特征在于具体步骤如下:
步骤一:利用物联网技术收集飞机大修车间中产生的实时信息,所述实时信息包括加工机器的完好率,任务缓冲区中的任务总数以及机器数量;
步骤二:通过步骤一获取飞机大修车间的实时信息后,将飞机大修实时调度模型构造为马尔科夫决策模型,将实时信息转化为实时状态;构筑所述马尔科夫决策模型包括状态空间设置、动作空间设置和奖励函数设置;
1)状态空间设置:通过3个特征变量μt、Et、Bt来定义飞机大修车间的实时状态;其中,μt表示加工机器在时间步t的完好率,Et表示在时间步t缓冲区中所有任务的预期平均EPT,Bt代表在时间步t处缓冲区的容量比;
2)动作空间设置:采用先进先出、最短处理时间、最长处理时间三种作业车间调度规则作为马尔科夫决策模型的动作;
3)奖励函数设置:奖励函数包括即时奖励和最终奖励,所述即时奖励r1由当前时刻车间所处的环境给定,公式...

【专利技术属性】
技术研发人员:贾晓亮符式峰刘括胡昊孙冰洋
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1