当前位置: 首页 > 专利查询>暨南大学专利>正文

基于强化学习及遗传算法的柔性车间调度方法及模型技术

技术编号:32676069 阅读:57 留言:0更新日期:2022-03-17 11:32
本发明专利技术提供了一种基于强化学习及遗传算法的柔性车间调度方法及模型,属于人工智能技术领域。根据柔性作业车间的特点,建立柔性作业车间调度模型;对遗传算法和基于熵的置信域优化强化学习算法中的基本参数进行初始化;利用基于熵的置信域优化算法更新遗传算法中的参数,并分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群;计算新种群中每个个体的适应度,确定基于熵的置信域优化算法中的状态参数,对新染色体种群执行遗传算法操作;反复执行上述迭代至截止,并输出结果。本发明专利技术将基于熵的置信域优化强化学习算法与遗传算法相结合,提高了柔性车间调度的性能,增强车间生产的鲁棒性,提高生产效率。提高生产效率。提高生产效率。

【技术实现步骤摘要】
基于强化学习及遗传算法的柔性车间调度方法及模型


[0001]本专利技术涉及人工智能
,尤其涉及一种基于强化学习及遗传算法的柔性车间调度方法及模型。

技术介绍

[0002]近年来,工业互联网、机器学习等技术的进步,为企业实现转型提供了更多可能性。这些利用新的技术进行生产的方式,也被称为“智能制造”。“智能制造”在工业生产中占有十分重要的地位。
[0003]调度问题是指在交通运输到工业制造等生产和生活领域中,如何通过合理分配资源以达到效率最大化。在绝大多数的制造环境中,由于工业生产的动态性,进行合理有效的调度是提高生产效率的关键。作业车间调度问题是对工业生产中出现的调度问题的统称,由于它是影响生产性能的关键环节,其日益受到研究界的关注。
[0004]传统的工厂调度主要依靠人的决策能力,而“智能制造”使得通过智能技术解决车间作业的调度成为可能。但当作业车间动态变化时,如一些意外的事件发生(包括加工超时或提前,一个紧急的订单加入等),则普通的作业车间调度问题无法满足此类生产情况。实际上,机器能够完成多个不同的操作,而每种操作也可以在多个不同的机器上完成,这比普通的作业车间调度问题更为灵活,通常被称为柔性作业车间调度问题,而实际的车间生产中,柔性作业车间调度问题更为常见,对其进行研究意义重大。
[0005]鉴于作业车间调度问题可以看作是一个组合优化问题,故也可使用启发式算法,包括遗传算法(遗传算法)、模拟退火(SA)等对这类问题进行处理。但在环境变化时,此类算法需要进行重新的调度,因此启发式方法在动态的车间生产中表现很差,无法很好地处理柔性作业车间调度问题。
[0006]强化学习作为一种新兴的人工智能技术,也开始被应用于解决车间生产调度问题。强化学习近年来发展迅速,在多个领域取得了较高成就。强化学习的自适应能力强,能较好地处理动态调度问题。
[0007]在中国专利申请文献CN111967654A中,公开了一种基于混合遗传算法求解柔性作业车间调度的方法,将鲸鱼群算法和遗传算法相结合,进一步提加深了算法的搜索深度,增强了求解精度与求解稳定性,提高了车间生产效率。在中国专利申请文献CN110009235A中,公开了一种基于改进遗传算法的柔性作业车间调度方法,其中提供的融合Powell搜索法的遗传算法方案,增强了算法的局部搜索能力,解决了算法早熟问题。但现有方法均未将强化学习技术与启发式算法相结合用于柔性作业车间调度,模型求解速度慢,消耗资源更多。
[0008]现有技术至少存在以下不足:
[0009]1.未将强化学习技术与启发式算法相结合用于柔性作业车间调度,以一种预定的方式对算法的参数的进行固定或更新,算法的性能较低。

技术实现思路

[0010]为解决现有技术中存在的问题,本专利技术提供了一种基于强化学习及遗传算法的柔性车间调度方法及模型,该方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件;对所建立的模型的解进行编码,实现解和染色体之间的相互转换;对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数;利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新,所述目标函数中加入策略的熵,并在目标函数中引入对价值函数的值的估计;根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群;计算新种群中每个个体的适应度,确定基于熵的置信域优化强化学习算法中的状态参数,对新染色体种群执行遗传算法操作;判断种群迭代次数是否达到上限,若未达到上限,继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。本专利技术将基于熵的置信域优化强化学习算法与遗传算法相结合,解决了传统的参数寻优方法耗时长、效率低的问题,使得遗传算法的最优参数的获取更为快捷,用其求解柔性车间调度问题,能够促进车间生产的效率。
[0011]本专利技术提供了一种基于强化学习及遗传算法的柔性车间调度方法,所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,包括如下步骤:
[0012]根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件;
[0013]对柔性作业车间调度模型的解进行编码,实现解和染色体之间的相互转换;
[0014]对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法中的相关参数;
[0015]利用基于熵的置信域优化强化学习算法更新遗传算法中的参数;
[0016]在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新,所述目标函数中加入策略的熵,并在目标函数中引入对价值函数的值的估计;
[0017]根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作,生成参与遗传的新染色体种群;
[0018]计算新种群中每个个体的适应度,确定基于熵的置信域优化强化学习算法中的状态参数,对新染色体种群执行遗传算法操作;
[0019]判断种群迭代次数是否达到上限,若未达到上限,继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。
[0020]优选地,利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm,根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群。
[0021]优选地,根据柔性作业车间的特点,建立柔性作业车间调度模型,具体包括:
[0022]将柔性作业车间调度模型定义为:n个工件{J1,

,J
n
}要在m台机器{M1,

,M
n
}上
加工;
[0023]每个工件J
i
(i=1,2,3,

n)包含一道或多道工序,预先确定工序顺序,每道工序可以在多台不同加工机器上进行加工,每道工序的加工时间随加工机器M
k
(k=1,2,3,

n)的不同而变化;
[0024]调度目标为使整个系统的如下性能指标达到最优,具体为:最大完工时间最小、最大负荷机器负荷最小和所有机器的总负荷最小,
[0025]性能指标的目标函数分别如下:
[0026]最大完工时间C
M
:minC
M
=min(max(C
K
)),1≤k≤m;
[0027]其中,C
K
为机器M...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习及遗传算法的柔性车间调度方法,其特征在于,所述基于强化学习及遗传算法的柔性车间调度方法采用基于熵的置信域优化强化学习算法和遗传算法相结合,包括如下步骤:根据柔性作业车间的特点,建立柔性作业车间调度模型并确定其约束条件;对柔性作业车间调度模型的解进行编码,实现解和染色体之间的相互转换;对遗传算法的基本参数和基于熵的置信域优化强化学习算法中的基本参数进行初始化,得到初始的染色体种群以及基于熵的置信域优化强化学习算法的相关参数;利用基于熵的置信域优化强化学习算法更新遗传算法中的参数,在基于熵的置信域优化强化学习算法中利用Adam优化器对目标函数进行更新,所述目标函数中加入策略的熵,并在目标函数中引入对价值函数的值的估计;根据更新遗传算法中的参数对参与遗传的染色体种群进行遗传操作,生成参与遗传的新染色体种群;计算新种群中每个个体的适应度,确定基于熵的置信域优化强化学习算法中的状态参数,对新染色体种群执行遗传算法操作;判断种群迭代次数是否达到上限,若未达到上限,继续返回利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm;若已达到上限,则直接输出结果。2.根据权利要求1所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,利用基于熵的置信域优化强化学习算法更新遗传算法中的交叉概率Pc与变异概率Pm,根据交叉概率Pc与变异概率Pm分别对参与交叉和变异的染色体种群进行交叉和变异操作,生成参与交叉和变异的新染色体种群。3.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,根据柔性作业车间的特点,建立柔性作业车间调度模型,具体包括:将柔性作业车间调度模型定义为:n个工件{J1,

,J
n
}要在m台机器{M1,

,M
n
}上加工;每个工件J
i
(i=1,2,3,

n)包含一道或多道工序,预先确定工序顺序,每道工序可以在多台不同加工机器上进行加工,每道工序的加工时间随加工机器M
k
(k=1,2,3,

n)的不同而变化;调度目标为使整个系统的如下性能指标达到最优,具体为:最大完工时间最小、最大负荷机器负荷最小和所有机器的总负荷最小,性能指标的目标函数分别如下:最大完工时间C
M
:minC
M
=min(max(C
K
)),1≤k≤m;其中,C
K
为机器M
K
的完工时间;最大负荷机器负荷W
M
:minW
M
=min(max(W
K
)),1≤k≤m;其中,W
K
为机器M
K
的工作负荷;所有机器的总负荷W
T
:4.根据权利要求3所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,确定的柔性作业车间调度模型的约束条件为每台机器的完工时间为非负值C
K
≥0。5.根据权利要求2所述的基于强化学习及遗传算法的柔性车间调度方法,其特征在于,
柔性作业车间调度编码包括两部分:机器染色体和工序染色体,机器染色体基于机器分配的编码,确定所选择的加工机器,对应机器选择子问题;工序染色体基于工序的编码,确定工序间的加工顺序,对...

【专利技术属性】
技术研发人员:郭洪飞陈世帆曾云辉杨博文伍泓韬何智慧任亚平李建庆
申请(专利权)人:暨南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1