【技术实现步骤摘要】
本专利技术涉及轨面状态识别,特别是涉及一种基于改进深度学习网络的轨面状态识别方法。
技术介绍
1、dqn算法使用深度神经网络来逼近q函数,网络训练可能会受到梯度爆炸或消失等问题的影响,现有技术中采用dqn算法在进行柔性作业车间调度策略训练时容易出现训练不稳定和难以收敛的问题,除此之外,dqn算法中使用了深度神经网络,在柔性作业车间调度策略训练过程中需要大量的计算资源,因此经过dqn算法训练的调度策略在求解不同规模的柔性作业车间调度问题实例时泛化性差且求解效率低。另外,现有技术中ppo算法在进行柔性作业车间调度策略训练时相对于dqn算法而言训练相对稳定且收敛性更好,但是ppo算法中存在多个超参数影响算法的性能和稳定性,而调整这些超参数需要进行大量的试验和调优,除此之外,经过ppo算法训练的调度策略在求解不同规模的柔性作业车间调度问题实例时表现非常不稳定。
2、申请号为cn202310433751.1的专利技术公开了一种基于深度强化学习的关于能耗的多目标动态柔性作业车间调度的方法,所述方法构建了双dqn算法的高层次深度强化学习网
...【技术保护点】
1.基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述方法的步骤如下:
2.根据权利要求1所述的基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述采用构建的SDAC算法模型进行迭代训练的步骤如下:
3.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述步骤S1.1中输入SDAC算法模型的训练参数包括最大迭代次数熵参数α、折扣因子γ和软更新权重参数ζ。
4.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述步骤S1.6中软Q网络参数θ通过计
...【技术特征摘要】
1.基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述方法的步骤如下:
2.根据权利要求1所述的基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述采用构建的sdac算法模型进行迭代训练的步骤如下:
3.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述步骤s1.1中输入sdac算法模型的训练参数包括最大迭代次数熵参数α、折扣因子γ和软更新权重参数ζ。
4.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述步骤s1.6中软q网络参数θ通过计算评论家网络中的目标损失函数jq(θ)的梯度进行更新。
5.根据权利要求2所述的基于深度强化学习的柔性作业车间调度策略训练方法,其特征在于,所述步骤s1.6中策略网络的参数φi通过计算演员网络中的最小化目标函数jπ(φi)的梯度进行更新...
【专利技术属性】
技术研发人员:万烂军,付龙,宁佳恩,李长云,王志兵,吴岳忠,
申请(专利权)人:湖南工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。