【技术实现步骤摘要】
一种基于深度强化学习的加锭策略方法
本专利技术涉及钢铁镀锌的
,尤其涉及一种基于深度强化学习的加锭策略方法。
技术介绍
在连续热镀锌生产过程中,钢板镀层表面常产生锌渣缺陷,其主要原因是受到镀锌工艺参数的影响,而镀锌工艺中锌锅铝含量的控制、锌液面高度的恒定是提高镀层表面质量、减少锌渣缺陷、降低生产成本的技术关键。锌锅铝含量的控制及锌液面高度的恒定,通常是通过添加锌锭以调整,然而,现有技术中,锌锭完全凭借操作人员的经验进行添加,铝含量及锌液面高度波动很大,不能够精确地实现控制锌液中有效铝含量、锌液面高度的恒定,从而影响镀层产品的质量、性能和成本。
技术实现思路
本申请实施例通过提供一种基于深度强化学习的加锭策略方法,解决了现有技术中锭完全凭借操作人员的经验进行添加,铝含量及锌液面高度波动很大,不能够精确地实现控制锌液中有效铝含量、锌液面高度的恒定的技术问题。一方面,本申请通过本申请的一实施例提供如下技术方案:一种基于深度强化学习的加锭策略方法,包括:获取当前生产工艺状态、铝含量目 ...
【技术保护点】
1.一种基于深度强化学习的加锭策略方法,其特征在于,包括:/n获取当前生产工艺状态、铝含量目标、液位目标;/n将所述当前生产工艺状态、所述铝含量目标、所述液位目标输入深度强化学习神经网络中,使得所述深度强化学习神经网络基于所述当前生产工艺状态、所述铝含量目标、所述液位目标输出加锭策略,/n其中,所述深度强化学习神经网络通过对多个训练样本进行深度强化学习获得,每个所述训练样本包括:和所述当前生产工艺状态、所述铝含量目标、所述液位目标的维度相同的数据,所述深度强化学习神经网络被配置为:基于所述当前生产工艺状态、所述铝含量目标、所述液位目标和加锭策略模型确定加锭策略,以及基于奖励 ...
【技术特征摘要】
1.一种基于深度强化学习的加锭策略方法,其特征在于,包括:
获取当前生产工艺状态、铝含量目标、液位目标;
将所述当前生产工艺状态、所述铝含量目标、所述液位目标输入深度强化学习神经网络中,使得所述深度强化学习神经网络基于所述当前生产工艺状态、所述铝含量目标、所述液位目标输出加锭策略,
其中,所述深度强化学习神经网络通过对多个训练样本进行深度强化学习获得,每个所述训练样本包括:和所述当前生产工艺状态、所述铝含量目标、所述液位目标的维度相同的数据,所述深度强化学习神经网络被配置为:基于所述当前生产工艺状态、所述铝含量目标、所述液位目标和加锭策略模型确定加锭策略,以及基于奖励模型对所述加锭策略给定奖励值,以使所述深度强化学习神经网络根据所述奖励值更新所述加锭策略模型;
控制加锭设备执行所述加锭策略对应的加锭动作。
2.如权利要求1所述的方法,其特征在于,所述当前生产工艺状态包括:当前铝含量、当前液位、带钢入锅温度、锌液温度、带钢运行速度、带钢宽度、当前锌锭类型、当前锌锭浸入深度。
3.如权利要求1所述的方法,其特征在于,所述加锭策略包括:加锭类型和加锭速度;
所述控制加锭设备执行所述加锭策略对应的加锭动作,包括:
控制所述加锭设备根据所述加锭策略对应的加锭类型和加锭速度进行投放。
4.如权利要求1所述的方法,其特征在于,基于所述训练样本训练所述深度强化学习神经网络的过程如下:
获取所述训练样本,所述训练样本包括:第一样本生产工艺状态、样本铝含量目标、样本液位目标,所述当前样本生产工艺状态包括:锌液的液位及所述锌液的铝含量,所述第一样本生产工艺状态和所述当前样本生产工艺状态具有相同的维度;所述样本铝含量目标为包含在第二预定时间内将所述锌液的铝含量控制在样本目标铝含量的第一预设范围内的信息;所述样本液位目标为包含将所述锌液的液位控制在样本目标液位的第二预设范围内的信息;
基于第二预定时间步长将所述样本目标铝含量在所述第二预定时间内进行均分,分别得到所述第二预定时间内的不同时间段对应的局部样本目标铝含量;
将所述第一样本生产工艺状态及所述不同时间段对应的局部样本目标铝含量输入所述加锭策略模型;
获取第i样本元组,所述第i样本元组包括:所述第i样本生产工艺状态、第i样本加锭策略及第i样本奖励值,其中,
所述第i样本生产工艺状态为执行第i-1样本加锭策略对应的加锭动作后获得的生产工艺状态,所述第i样本生产工艺状态与所述当前生产工艺状态具有相同的维度;
所述第i样本加锭策略为将所述第i样本生产工艺状态、当前时间段对应的所述局部样本目标铝含量、所述样本目标液位输入所述加锭策略模型后,由所述加锭策略模型输出的加锭策略;
所述第i样本奖励值为将所述当前时间段对应的局部样本目标铝含量、所述样本目标液位、执行所述第i样本加锭策略对应的加锭动作后获得的第i+1样本生产工艺状态输入所述奖励模型后,由所述奖励模型给定的局部样本奖励值;
利用所述第i样本元组更新所述加锭策略模型,直至到达所述第二预定时间时,获得的第N样本生产工艺状态下,所述锌液的液位控制在所述样本目标液位的第二预设范围内且所述锌液的铝含量控制在所述样本目标铝含量的第一预设范围内,得到所述深度强化学习神经网络,其中,N为大于2的正整数,i依次取2至N-1之间的正整数。
5.如权利要求4所述的方法,其特征在于,
所述将所述当前时间段对应的局部样本目标铝含量、所述样本目标液位、执行所述第i样本加锭策略对应的加锭动作后获得的第i+1样本生产工艺状态输入所述奖励模型后,由所述奖励模型给定局部样本奖励值的过程,具体为:
获取所述第i+1样本生产工艺状态下的所述锌液的铝含量与所述当前时间段对应的局部样本目标铝含量的第一局部...
【专利技术属性】
技术研发人员:陈丽娟,陈刚,彭炜,周诗正,赵雪松,
申请(专利权)人:武汉钢铁有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。