基于深度强化学习的柔性作业车间调度策略训练方法技术

技术编号：40001014 阅读：20 留言：0更新日期：2024-01-09 03:35

本发明专利技术公开了基于深度强化学习的柔性作业车间调度策略训练方法，所述方法采用SDAC算法模型并进行训练，其方法的步骤如下：S1：构建SDAC算法模型；S2：在演员网络中设计两个策略网络用于分别训练工序选择策略和机器分配策略，通过最小化目标函数来训练演员网络；S3：在评论家网络中设计了目标Q函数和软Q函数，计算当前调度策略下某个状态‑动作对的Q值，通过最小化目标损失函数来更新评论家网络；S4：使用评论家网络来控制演员网络的训练，经过多次迭代训练后输出最终的工序选择策略网络和机器分配策略网络；综上所述，本发明专利技术不仅提高了调度策略的训练效率，而且经过本发明专利技术所训练的调度策略能高效求解各个规模大小的柔性作业车间调度问题实例。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及轨面状态识别，特别是涉及一种基于改进深度学习网络的轨面状态识别方法。

技术介绍

1、dqn算法使用深度神经网络来逼近q函数，网络训练可能会受到梯度爆炸或消失等问题的影响，现有技术中采用dqn算法在进行柔性作业车间调度策略训练时容易出现训练不稳定和难以收敛的问题，除此之外，dqn算法中使用了深度神经网络，在柔性作业车间调度策略训练过程中需要大量的计算资源，因此经过dqn算法训练的调度策略在求解不同规模的柔性作业车间调度问题实例时泛化性差且求解效率低。另外，现有技术中ppo算法在进行柔性作业车间调度策略训练时相对于dqn算法而言训练相对稳定且收敛性更好，但是ppo算法中存在多个超参数影响算法的性能和稳定性，而调整这些超参数需要进行大量的试验和调优，除此之外，经过ppo算法训练的调度策略在求解不同规模的柔性作业车间调度问题实例时表现非常不稳定。

2、申请号为cn202310433751.1的专利技术公开了一种基于深度强化学习的关于能耗的多目标动态柔性作业车间调度的方法，所述方法构建了双dqn算法的高层次深度强化学习网...

【技术保护点】

1.基于深度强化学习的柔性作业车间调度策略训练方法，其特征在于，所述方法的步骤如下：

2.根据权利要求1所述的基于深度强化学习的柔性作业车间调度策略训练方法，其特征在于，所述采用构建的SDAC算法模型进行迭代训练的步骤如下：

3.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法，其特征在于，所述步骤S1.1中输入SDAC算法模型的训练参数包括最大迭代次数熵参数α、折扣因子γ和软更新权重参数ζ。

4.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法，其特征在于，所述步骤S1.6中软Q网络参数θ通过计算评论家网络中的目标...

【技术特征摘要】

1.基于深度强化学习的柔性作业车间调度策略训练方法，其特征在于，所述方法的步骤如下：

2.根据权利要求1所述的基于深度强化学习的柔性作业车间调度策略训练方法，其特征在于，所述采用构建的sdac算法模型进行迭代训练的步骤如下：

3.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法，其特征在于，所述步骤s1.1中输入sdac算法模型的训练参数包括最大迭代次数熵参数α、折扣因子γ和软更新权重参数ζ。

4.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法，其特征在于，所述步骤s1.6中软q网络参数θ通过计算评论家网络中的目标损失函数jq(θ)的梯度进行更新。

5.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法，其特征在于，所述步骤s1.6中策略网络的参数φi通过计算演员网络中的最小化目标函数jπ(φi)的梯度进行更新...

【专利技术属性】
技术研发人员：万烂军，付龙，宁佳恩，李长云，王志兵，吴岳忠，
申请(专利权)人：湖南工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人