基于深度强化学习混合动作空间的氧气系统调度优化方法技术方案

技术编号:37273968 阅读:5 留言:0更新日期:2023-04-20 23:42
本发明专利技术提供一种基于深度强化学习混合动作空间的氧气系统调度优化方法,包括如下步骤:氧气系统调度优化;基于drl的方法;结果和分析。本发明专利技术以深度强化学习为基础,提出了用于解决氧气系统调度问题的HAC算法,所提出的算法扩展了AC算法的actor网络,根据市场分时电价设计额外分段奖励函数。HAC算法解决了离散变量和连续变量的混合问题,在提高经济效益的同时实现节能减排。实验结果表明,HAC算法将调度问题置于混合的动作空间中,避免导致次优的动作选择的问题。与传统算法相比,HAC算法显著提高了算法的收敛性和准确性,使氧气系统具有更高的氧气利用率和经济效益。有更高的氧气利用率和经济效益。有更高的氧气利用率和经济效益。

【技术实现步骤摘要】
optimization,PSO)算法对所提出的考虑电力成本的调度模型进行求解。为了解决生产制造过程中不确定性导致的供应和需求之间的关系波动,Jiang等人提出了一个考虑不确定需求的最优氧气分配策略,设计了基于预算的不确定性集的两阶段鲁棒优化(two

stage robust optimization,TSRO)模型,主要包括基于高斯过程的时间序列模型来预测连续过程的需求区间,产能约束调度模型来生成离散过程的多场景需求。Zhang等人在降低由氧气供需不平衡引起的管网压力波动基础上建立了氧气系统调度的混合整数线性规划模型,提高了系统安全性的同时降低了氧气放散率。上述研究根据实际生产量、需求量进行调度研究,在生产过程中进行调度具有滞后性,为实时解决调度问题,Han等人应用基于粒度计算的模型来预测氧/氮需求,并开发了基于MILP的优化模型来分配氧气。Zhang等人开发一个基于模型的决策支持系统,可以根据短期氧气需求预测来最小化氧气消散量,能够及时提供一个响应性的解决方案,以调整供应方面涉及的所有变量。然而,利用传统方法处理涉及离散变量或连续变量的问题时,仍未有调度方法明确针对变量连续或离散来解决实际调度问题,大多从调度优化目标方面选取调度方法,因而对于钢铁企业氧气系统涉及混合变量的复杂问题,传统求解方法仍然有待进一步改进。
[0005]深度强化学习(reinforcement learning,RL)将深度学习的感知能力和强化学习的决策能力相结合,可处理涉及高维变量的复杂调度问题。从时间差分更新方法角度,深度强化学习分为值函数算法和策略梯度算法。值函数算法需要对动作进行采样,用于处理离散动作,深度Q网络(Deep Q

Learning,DQN)是基于值函数的经典深度强化学习算法。Bernd Waschneck等人将DQN算法用于工业生产调度,以实现工业4.0,Wu等人提出了基于深度Q学习的混合动力公交车能量管理策略。然而实际调度问题复杂多样,传统DQN算法无法解决所有调度问题,需要对DQN算法进行改进。Luo等人设计了一种新的基于双DQN(double DQN,DDQN)的训练框架,解决具有新任务插入的动态多目标柔性作业车间调度问题,Ren等人采用基于预测的Dueling

DDQN算法,对家庭能源管理系统进行优化,针对工厂可重构制造系统,利用Dueling

DDQN算法可得出调度策略。策略梯度算法直接利用策略网络对动作进行搜索,可以被用于处理连续动作的情况。常用的算法有深度确定性策略梯度(deterministic policy gradient,DDPG算法)算法、以及在DDPG算法上进行改进的TD3算法(Twin Delayed Deep Deterministic,TD3)和PPO(Proximal Policy Optimization)算法。针对连续动作空间,有许多学者利用上述算法对不同系统进行调度优化。Wang等人基于DDPG算法对电动汽车集群C

D(charging

discharging)系统电动汽车充放电进行决策,有效降低用户充电成本。对于虚拟电厂,Guo等人利用TD3算法对电动汽车充放电进行调度,而Zhou等人则通过TD3算法来求解混合动力汽车的能源管理策。此外,采用PPO算法来寻找作业车间调度的最优策略和DPPO算法解决热电联产系统经济调度问题。Actor

Critic算法是值函数的算法与策略梯度算法的结合,可以进行单步更新,更具优势。Mao等人提出了一种带有前馈神经网络的Actor

Critic算法解决出租车调度问题,Ying等人则利用Actor

Critic算法解决有限车辆流通的地铁列车调度问题。因此,深度强化学习算法可针对性地对涉及离散变量或连续变量的实际调度问题进行求解,但是针对氧气系统涉及混合变量调度问题,未有特定算法来解决。
[0006]综上,在现有研究中,大多学者从关于机组运行特性的离散量考虑,对整个系统设备运行进行优化调度,或者只考虑系统中氧气的生产量或消耗量,对氧气供需平衡进行优
化调度。未有学者将设备运行和氧气供需平衡结合起来,进行整体优化调度,制定合理的调度方案同时控制氧气量和设备运行。同时,现有深度强化学习算法不能解决同时包含离散和连续变量的钢铁氧气系统调度问题。因此,本专利技术设计了一种基于改进深度强化学习算法的钢铁企业氧气系统调度方案。根据氧气系统实际调度需求,同时考虑设备运行状态如设备开停和氧气产量,基于此提出了混合动作评价(HAC)算法。针对混合动作空间特性,在Actor

Critic算法框架下,进行了actor网络扩展,将动作空间细分为离散动作空间和连续动作空间。考虑离散动作和连续动作之间的耦合关系,构建关联矩阵,对整体氧气系统进行调度。

技术实现思路

[0007]本专利技术提供一种基于深度强化学习混合动作空间的氧气系统调度优化方法,以解决现有技术中的问题。
[0008]本专利技术所解决的技术问题采用以下技术方案来实现:
[0009]本专利技术提供一种基于深度强化学习混合动作空间的氧气系统调度优化方法,包括如下步骤:
[0010]步骤一、氧气系统调度优化
[0011]1.1确定氧气系统调度优化问题:钢铁企业氧气系统分为三个子系统:氧气发生系统、存储系统和使用系统;安排系统中各设备的运行方式和生产水平,在满足用户氧气需求的同时,提高氧气利用率,实现利益最大化;
[0012]1.2优化目标
[0013]1.3约束条件
[0014]步骤二、基于drl的方法
[0015]步骤三、结果和分析
[0016]为验证HAC算法用于氧气系统调度优化的有效性与优越性,首先给出了采用HAC算法调度与实际生产的对比实验结果,并对所提出的算法结构进行分析;
[0017]3.1算法验证与分析
[0018]混合actor

critic算法用神经网络拟合强化学习策略函数和状态动作价值函数,具有3个神经网络,即离散actor网络、连续actor网络和critic网络,将神经网络隐藏层层数设为2层,每层设置200个神经元,隐藏层的激活函数均为负斜率为0.01的ReLU函数,输出层为全连接层;采用深度学习常用思想选取超参数然后根据实际训练数据进行试错调整;
[0019]3.2算法结构分析对比
[0020]设置了额外奖励函数,考虑峰时谷时设备用电量对整个调度结果的影响;为验证其合理性,将原算法与不设置额外奖励的算法分别对氧气系统进行调度优化,将调度优化后的策略进行分析计算,按所提出的目标函数计算各自经济指标进行比较;不设置额外奖励函数,峰谷时设备用电量差别较小,整体经济效益平稳低于原算法调度结果;然而用原算法调度后,峰时机器消耗电量低于谷时,整体经济效益更高,比不设置额外奖励函数平均经济效益多24%;
[0021]此外,混合act本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习混合动作空间的氧气系统调度优化方法,包括如下步骤:步骤一、氧气系统调度优化1.1确定氧气系统调度优化问题:钢铁企业氧气系统分为三个子系统:氧气发生系统、存储系统和使用系统;安排系统中各设备的运行方式和生产水平,在满足用户氧气需求的同时,提高氧气利用率,实现利益最大化;1.2优化目标1.3约束条件步骤二、基于drl的方法步骤三、结果和分析为验证HAC算法用于氧气系统调度优化的有效性与优越性,首先给出了采用HAC算法调度与实际生产的对比实验结果,并对所提出的算法结构进行分析;3.1算法验证与分析混合actor

critic算法用神经网络拟合强化学习策略函数和状态动作价值函数,具有3个神经网络,即离散actor网络、连续actor网络和critic网络,将神经网络隐藏层层数设为2层,每层设置200个神经元,隐藏层的激活函数均为负斜率为0.01的ReLU函数,输出层为全连接层;采用深度学习常用思想选取超参数然后根据实际训练数据进行试错调整;3.2算法结构分析对比设置了额外奖励函数,考虑峰时谷时设备用电量对整个调度结果的影响;为验证其合理性,将原算法与不设置额外奖励的算法分别对氧气系统进行调度优化,将调度优化后的策略进行分析计算,按所提出的目标函数计算各自经济指标进行比较;不设置额外奖励函数,峰谷时设备用电量差别较小,整体经济效益平稳低于原算法调度结果;然而用原算法调度后,峰时机器消耗电量低于谷时,整体经济效益更高,比不设置额外奖励函数平均经济效益多24%;此外,混合actor

critic算法建立了关联矩阵D,表明两个actor网络之间的耦合关系;为验证设置关联矩阵的必要性,对HAC算法去掉关联矩阵后进行氧气系统调度策略求解;3.3不同算法结果对比将混合actor

critic算法与MP

DQN算法、P

DQN算法以及PADDPG算法进行对比;混合actor

critic算法奖励曲线约在10000回合达到收敛且奖励值最高,MP

DQN算法与P

DQN算法收敛时间较长并且奖励值低于HAC算法,而PADDPG算法虽在收敛时间上较快但平均奖励值过低无法满足调度优化需求。2.根据权利要求1所述的一种基于深度强化学习混合动作空间的氧气系统调度优化方法,其特征在于,所述步骤1.2包括:以氧气系统的经济指标F为调度优化目标,考虑外售液氧收入、各设备用电消耗及氧气释放损失,其数学表达式为:F=J
p

E

λ
·
J
r
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,J
P
是氧气系统液氧外售收入,E是设备用电产生的费用,J
r
是氧气系统释放损失;氧气系统液氧外售收入J
P
为:
其中f液氧单价,为外售的液氧量;为第i个制氧机在t时刻液氧产量,为第j个液化器t时刻液化量,为第g个气化器t时刻气化量;Δt
i
、Δt
j
、Δt
g
为各制氧机、液化器、气化器开启时长,α
i
、β
j
和ρ
g
分别表示制氧机、液化器和气化器的设备开启与否,离散化为0

1变量即:β
j
和ρ
g
与α
i
类似;设备用电成本E为:设备用电成本E为:为第i个制氧机在t时刻气态氧产量,和分别为制氧机、液化器和气化器用电成本,H
i
(t)、C
j
(t)和B
g
(t)为各制氧机、液化器和气化器产量与耗电量的对应函数,E(t)为实际电价;氧气系统释放损失J
r
为:为:氧气单价,氧气消散量,是在t时刻氧气储存量,在t时刻氧气使用量。3.根据权利要求1所述的一种基于深度强化学习混合动作空间的氧气系统调度优化方法,其特征在于,所述步骤1.3包括:氧气系统调度问题的约束条件包括四个部分,即物料平衡约束、气态氧气与液氧产量
比例约束、各设备运行约束以及设备开启约束;(1)物料平衡约束在t时刻,氧气管网物料平衡与液氧储罐物料平衡可表示为:在t时刻,氧气管网物料平衡与液氧储罐物料平衡可表示为:其中,分别表示t时刻液氧、气态氧、气化量、液化量总量,是t时刻液罐储存能力;(2)氧气与液氧约束产生的气态氧与液氧存在如下的关系:(3)各设备运行约束氧气系统涉及的各类设备,如制氧机、液化器、气化器、液氧储存装置等均有操作范围;1)制氧机运行约束每个制氧机都有其产氧上限和下限,分别约为生产能力的80%和105%;第i台制氧机氧气输出为相关约束为:相关约束为:和为第i台制氧机产氧量下限和上限;2)液化器运行约束与制氧机类似,液化装置的负荷范围一般在60%到100%之间;则液化器运行约束条件为:则液化器运行约束条件为:分别为第j台液化器液化量下限和上限;3)气化器运行约束气化器的气化能力不得超过设备的最大负荷:气化器的气化能力不得超过设备的最大负荷:为第g台气化装置的气化体积的上下限。4)液氧储槽容积约束考虑到设备安全,储液罐的实际容量限制在额定容量的10%~95%;液罐容积为则约束为:则约束为:分别为液氧储槽容积的上下限;(4)设备开启约束在设备空闲时才可执行开启动作且设备开启台数不大于设备总数,即∑α
i
≤n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
∑β
j
≤m
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)∑ρ
g
≤l
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)深度强化学习算法针对具体变量类型,在处理混合变量问题上具有优势;基于改进强化学习的混合变量优化调度方法,用于解决钢铁企业氧气系统调度优化问题。4.根据权利要求1所述的一种基于深度强化学习混合动作空间的氧气系统调度优化方法,其特征在于,所述步骤二包括:2.1强化学习基本原理强化学习用马尔可夫决策过程(MDP)表示;具体形式可用五元组<s,a,p,r,γ>表示,其中,s代表所有的状态,a表示的智能体可以采取的所有行动,p表示状态转移概率,r表示特定状态和动作下的即时奖励,γ表示返回的折扣;在t时刻的状态为s
t
,智能体根据策略π
t
,在环境中执行某一动作a
t
,根据状态转移概率p,在t+1时刻转移到新状态s
t+1
,环境对处于新状态的智能体产生反馈奖励r
t+1
;智能体基于新的状态s
t+1
和反馈奖励r
t+1
在t+1时刻执行一个新的动作,并通过反馈信号与环境进行迭代交互;2.2氧气系统调度优化马尔可夫模型根据上述强化学习理论建立氧气系统调度优化的马尔可夫模型,以经济指标最大化为目标:1)状态s观察到的氧气系统状态包括氧气需求、氧气排...

【专利技术属性】
技术研发人员:李丽娟杨雪王欢许晓伟张印强
申请(专利权)人:南京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1