当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于行为决策网络粒子群优化的柔性车间调度方法技术

技术编号:32021370 阅读:23 留言:0更新日期:2022-01-22 18:40
本发明专利技术公开了一种基于行为决策网络粒子群优化的柔性车间调度方法,包括,初始化搜索空间及约束条件;初始化参数,并基于搜索空间及约束条件随机生成初始种群,并初始化行为决策神经网络;将初始种群中粒子的位置输入行为决策神经网络,根据网络的输出结果对粒子的位置和适应值进行更新;结合粒子的适应值的变化情况和强化学习策略对行为决策神经网络隐藏层结点的中心位置、宽度进行更新,并更新隐藏层结点与动作执行节点间的权值;计算输入的粒子的下一位置和适应值,选取最优粒子;判断工件生产是否满足结束条件,若满足则输出最小完工时间,否则,则重新更新粒子的位置和适应值;本发明专利技术能够有效求解动态柔性调度问题,提高企业的生产效率。业的生产效率。业的生产效率。

【技术实现步骤摘要】
一种基于行为决策网络粒子群优化的柔性车间调度方法


[0001]本专利技术涉及车间调度的
,尤其涉及一种基于行为决策网络粒子群优化的柔性车间调度方法。

技术介绍

[0002]生产作业车间调度问题是指针对一项确定的可分解的生产任务,在一定的资源约束下,通过合理安排各产品的加工顺序和所用资源来满足最优化的生产目标,使得生产过程能够高效有序地进行。生产作业车间调度问题作为经典的组合优化问题,目前研究人员已对其进行广泛地研究。近年来,随着制造业的飞速发展,生产过程中不确定性干扰事件也愈发频繁,如机器故障、紧急工件插入、订单撤销等动态干扰。由此产生的新的复杂调度问题,即动态柔性作业车间调度(Dynamic Flexible Job Shop Problem,DFJSP)已成为调度领域的研究热点,具有重要的研究意义和实用价值。
[0003]当前已有成果为进一步研究DFJSP奠定了良好的基础,但是现有研究大多是基于人为经验或是预先设置相对固定的策略来处理突发事件发生后的调度问题,无法针对当前的动态环境对每个个体(即当前解群体中的每一个解)进行合理的行为决策来指导调度过程,导致大量冗余或低效的搜索,直接影响动态柔性调度解的质量,降低生产的效率。
[0004]粒子群优化算法(PSO,Particle Swarm Optimization)是一种基于种群的群体智能算法,由Kennedy和Eberhart于1995年提出。由于该算法具有概念简单、易于实现及计算开销小等特点,在过去几十年吸引了众多学者的注意。目前PSO已被改进生成多种变种算法,并成功应用于求解众多静态优化问题。但是,在面对动态优化问题时,PSO存在两个方面的挑战:首先,需要在整个搜索过程保持高种群多样性。因为随着环境的变化,若种群在当前环境下陷入某一最终聚集,将会直接导致算法在随后的环境中难以进行广泛的搜索,易于陷入局部最优。其次,种群中的每个个体需要根据当前环境进行合理的行为决策,以实现高效的搜索。这是因为预先设计相对固定的进化规则往往难以适应未知环境和突发事件,无法保证动态环境中的搜索效率。

技术实现思路

[0005]本部分的目的在于概述本专利技术的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和专利技术名称中可能会做些简化或省略以避免使本部分、说明书摘要和专利技术名称的目的模糊,而这种简化或省略不能用于限制本专利技术的范围。
[0006]鉴于上述现有存在的问题,提出了本专利技术。
[0007]为解决上述技术问题,本专利技术提供如下技术方案:包括,根据加工工件各工序所需使用的机器及加工时间初始化搜索空间及约束条件;初始化参数,并基于所述搜索空间及约束条件随机生成初始种群,并根据所述初始种群对行为决策神经网络进行初始化;将初始种群中粒子的位置输入所述行为决策神经网络,根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新;结合粒子的适应值的变化情况和强化学习策略对行为决策神
经网络隐藏层结点的中心位置、宽度进行更新,并更新隐藏层结点与动作执行节点间的权值;计算输入的粒子的下一位置和适应值,通过所述适应值选取最优粒子;判断工件生产是否满足结束条件,若满足则输出最小完工时间,否则,则重新将初始种群中粒子的位置输入所述行为决策神经网络,根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新;其中,所述约束条件为工件的工序顺序约束,所述搜索空间为粒子的搜索范围,搜索空间的维数为任务总加工工序数Q,其中,每一维的范围是0~单个工件的工序数。
[0008]作为本专利技术所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案,其中:所述初始化参数包括,设置初始种群大小为100个粒子,最大进化代数为500代。
[0009]作为本专利技术所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案,其中:初始化所述行为决策神经网络包括,所述神经网络包括输入层、隐藏层和输出层;将隐藏层结点的中心初始化为初始种群中的粒子,将权值初始化为(0,1)间的随机数。
[0010]作为本专利技术所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案,其中:更新粒子的位置包括,更新粒子的位置x
i

[0011]x
i
(t+1)=x
i
(t)+w*v
i
+c1*r1*(gbest

x
i
(t))+c2*r2*(μ
nr

x
i
(t))
[0012][0013]c1=C

c2[0014]其中,x
i
(t)为t时刻的粒子的位置,w表示惯性权重,v
i
表示粒子上一时刻的速度,r1和r2为两个属于(0,1)的随机数,gbest表示全局最优粒子位置,μ
nr
表示离当前粒子最近的子群中心位置,c1表示向全局最优粒子学习的加速系数,c2表示向对应子种群中心学习的加速系数,Δ代表加速系数c2的变化,C为加速系数c1和加速系数c2的和。
[0015]作为本专利技术所述的基于行为决策网络粒子群优化的柔性车间调度方法的一种优选方案,其中:还包括,强化学习策略的反馈表示为:
[0016][0017]其中,t和t+1代表相邻两个时刻;f
it
和f
it+1
代表第i个输入粒子在相邻两个时刻的适应值;当f
it+1
<f
it
时,行为决策神经网络将得到正反馈,此时将对输出层的动作执行节点进行奖励,使其后续输出更接近于1;反之,将对其进行惩罚,使之更接近于0;
[0018]根据下式分别对行为决策神经网络隐藏层结点的中心位置、宽度进行更新:
[0019][0020]μ
nr

=μ
nr
+Δμ
nr
[0021][0022]σ
nr

=σ
nr
+Δσ
nr
[0023]其中,μ
nr
和σ
nr
分别表示更新前的隐藏层结点的中心位置、宽度,μ
nr

和σ
nr

分别表示更新后的隐藏层结点的中心位置、宽度,Δμ
nr
和Δσ
nr
表示隐藏层结点的中心位置、宽度的变化,Δα
nr
表示权值的变化,α
nr
表示隐藏层结点与动作执行节点间的权值,α
nr

为更新后的权值,η为学习率,z
nr
表示输出层节点的输入,y
i
是动作执行节点i的实际输出,d
nr
是根据奖惩情况推出的应得输出,当受到奖励时,d
nr
设为1,否则,d
nr
设为0。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:包括,根据加工工件各工序所需使用的机器及加工时间初始化搜索空间及约束条件;初始化参数,并基于所述搜索空间及约束条件随机生成初始种群,并根据所述初始种群对行为决策神经网络进行初始化;将初始种群中粒子的位置输入所述行为决策神经网络,根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新;结合粒子的适应值的变化情况和强化学习策略对行为决策神经网络隐藏层结点的中心位置、宽度进行更新,并更新隐藏层结点与动作执行节点间的权值;计算输入的粒子的下一位置和适应值,通过所述适应值选取最优粒子;判断工件生产是否满足结束条件,若满足则输出最小完工时间,否则,则重新将初始种群中粒子的位置输入所述行为决策神经网络,根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新;其中,所述约束条件为工件的工序顺序约束,所述搜索空间为粒子的搜索范围,搜索空间的维数为任务总加工工序数Q,其中,每一维的范围是0~单个工件的工序数。2.如权利要求1所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:所述初始化参数包括,设置初始种群大小为100个粒子,最大进化代数为500代。3.如权利要求2所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:初始化所述行为决策神经网络包括,所述神经网络包括输入层、隐藏层和输出层;将隐藏层结点的中心初始化为初始种群中的粒子,将权值初始化为(0,1)间的随机数。4.如权利要求1或2所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:更新粒子的位置包括,更新粒子的位置x
i
:x
i
(t+1)=x
i
(t)+w*v
i
+c1*r1*(gbest

x
i
(t))+c2*r2*(μ
nr

x
i
(t))c1=C

c2其中,x
i
(t)为t时刻的粒子的位置,w表示惯性权重,v
i
表示粒子上一时刻的速度,r1和r2为两个属于(0,1)的随机数,gbest表示全局最优粒子位置,μ
nr
表示离当前粒子最近的子群中心位置,c1表示向全局最优粒子学习的加速系数,c2表示向对应子种群中心学习的加速系数,Δ代表加速系数c2的变化,C为加速系数c1和加速系数c2的和。5.如权利要求4所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:还包括,强化学习策略的反馈表示为:
其中,t和t+1代表相邻两个时刻;f
it
和f
it+1
代表第i个输入粒子在相邻两个时刻的适应值;当f
it+1
<f
it
时,行为决策神经网络将得到正反馈,此时将对输出层的动作执行节点进行奖励,使其后续输出更接近于1;反之,将对其进行惩罚,使之更接近于0;根据下式分别对行为决策神经网络隐藏层结点的中心位置、宽度进行更新:μ
nr

=μ
nr
+Δμ
n...

【专利技术属性】
技术研发人员:宋威张潇
申请(专利权)人:江南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1