【技术实现步骤摘要】
一种基于行为决策网络粒子群优化的柔性车间调度方法
[0001]本专利技术涉及车间调度的
,尤其涉及一种基于行为决策网络粒子群优化的柔性车间调度方法。
技术介绍
[0002]生产作业车间调度问题是指针对一项确定的可分解的生产任务,在一定的资源约束下,通过合理安排各产品的加工顺序和所用资源来满足最优化的生产目标,使得生产过程能够高效有序地进行。生产作业车间调度问题作为经典的组合优化问题,目前研究人员已对其进行广泛地研究。近年来,随着制造业的飞速发展,生产过程中不确定性干扰事件也愈发频繁,如机器故障、紧急工件插入、订单撤销等动态干扰。由此产生的新的复杂调度问题,即动态柔性作业车间调度(Dynamic Flexible Job Shop Problem,DFJSP)已成为调度领域的研究热点,具有重要的研究意义和实用价值。
[0003]当前已有成果为进一步研究DFJSP奠定了良好的基础,但是现有研究大多是基于人为经验或是预先设置相对固定的策略来处理突发事件发生后的调度问题,无法针对当前的动态环境对每个个体(即当前解群体中的每一个解)进行合理的行为决策来指导调度过程,导致大量冗余或低效的搜索,直接影响动态柔性调度解的质量,降低生产的效率。
[0004]粒子群优化算法(PSO,Particle Swarm Optimization)是一种基于种群的群体智能算法,由Kennedy和Eberhart于1995年提出。由于该算法具有概念简单、易于实现及计算开销小等特点,在过去几十年吸引了众多学者的注意。目前PSO已 ...
【技术保护点】
【技术特征摘要】
1.一种基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:包括,根据加工工件各工序所需使用的机器及加工时间初始化搜索空间及约束条件;初始化参数,并基于所述搜索空间及约束条件随机生成初始种群,并根据所述初始种群对行为决策神经网络进行初始化;将初始种群中粒子的位置输入所述行为决策神经网络,根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新;结合粒子的适应值的变化情况和强化学习策略对行为决策神经网络隐藏层结点的中心位置、宽度进行更新,并更新隐藏层结点与动作执行节点间的权值;计算输入的粒子的下一位置和适应值,通过所述适应值选取最优粒子;判断工件生产是否满足结束条件,若满足则输出最小完工时间,否则,则重新将初始种群中粒子的位置输入所述行为决策神经网络,根据行为决策神经网络的输出结果对粒子的位置和适应值进行更新;其中,所述约束条件为工件的工序顺序约束,所述搜索空间为粒子的搜索范围,搜索空间的维数为任务总加工工序数Q,其中,每一维的范围是0~单个工件的工序数。2.如权利要求1所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:所述初始化参数包括,设置初始种群大小为100个粒子,最大进化代数为500代。3.如权利要求2所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:初始化所述行为决策神经网络包括,所述神经网络包括输入层、隐藏层和输出层;将隐藏层结点的中心初始化为初始种群中的粒子,将权值初始化为(0,1)间的随机数。4.如权利要求1或2所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:更新粒子的位置包括,更新粒子的位置x
i
:x
i
(t+1)=x
i
(t)+w*v
i
+c1*r1*(gbest
‑
x
i
(t))+c2*r2*(μ
nr
‑
x
i
(t))c1=C
‑
c2其中,x
i
(t)为t时刻的粒子的位置,w表示惯性权重,v
i
表示粒子上一时刻的速度,r1和r2为两个属于(0,1)的随机数,gbest表示全局最优粒子位置,μ
nr
表示离当前粒子最近的子群中心位置,c1表示向全局最优粒子学习的加速系数,c2表示向对应子种群中心学习的加速系数,Δ代表加速系数c2的变化,C为加速系数c1和加速系数c2的和。5.如权利要求4所述的基于行为决策网络粒子群优化的柔性车间调度方法,其特征在于:还包括,强化学习策略的反馈表示为:
其中,t和t+1代表相邻两个时刻;f
it
和f
it+1
代表第i个输入粒子在相邻两个时刻的适应值;当f
it+1
<f
it
时,行为决策神经网络将得到正反馈,此时将对输出层的动作执行节点进行奖励,使其后续输出更接近于1;反之,将对其进行惩罚,使之更接近于0;根据下式分别对行为决策神经网络隐藏层结点的中心位置、宽度进行更新:μ
nr
′
=μ
nr
+Δμ
n...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。