基于深度强化学习混合动作空间的氧气系统调度优化方法技术方案

技术编号：37273968 阅读：5 留言：0更新日期：2023-04-20 23:42

本发明专利技术提供一种基于深度强化学习混合动作空间的氧气系统调度优化方法，包括如下步骤：氧气系统调度优化；基于drl的方法；结果和分析。本发明专利技术以深度强化学习为基础，提出了用于解决氧气系统调度问题的HAC算法，所提出的算法扩展了AC算法的actor网络，根据市场分时电价设计额外分段奖励函数。HAC算法解决了离散变量和连续变量的混合问题，在提高经济效益的同时实现节能减排。实验结果表明，HAC算法将调度问题置于混合的动作空间中，避免导致次优的动作选择的问题。与传统算法相比，HAC算法显著提高了算法的收敛性和准确性，使氧气系统具有更高的氧气利用率和经济效益。有更高的氧气利用率和经济效益。有更高的氧气利用率和经济效益。

全部详细技术资料下载

【技术实现步骤摘要】
optimization，PSO)算法对所提出的考虑电力成本的调度模型进行求解。为了解决生产制造过程中不确定性导致的供应和需求之间的关系波动，Jiang等人提出了一个考虑不确定需求的最优氧气分配策略，设计了基于预算的不确定性集的两阶段鲁棒优化(two
‑
stage robust optimization，TSRO)模型，主要包括基于高斯过程的时间序列模型来预测连续过程的需求区间，产能约束调度模型来生成离散过程的多场景需求。Zhang等人在降低由氧气供需不平衡引起的管网压力波动基础上建立了氧气系统调度的混合整数线性规划模型，提高了系统安全性的同时降低了氧气放散率。上述研究根据实际生产量、需求量进行调度研究，在生产过程中进行调度具有滞后性，为实时解决调度问题，Han等人应用基于粒度计算的模型来预测氧/氮需求，并开发了基于MILP的优化模型来分配氧气。Zhang等人开发一个基于模型的决策支持系统，可以根据短期氧气需求预测来最小化氧气消散量，能够及时提供一个响应性的解决方案，以调整供应方面涉及的所有变量。然而，利用传统方法处理涉及离散变量或连续变量的问题时，仍未有调度方法明确针对变量连续或离散来解决实际调度问题，大多从调度优化目标方面选取调度方法，因而对于钢铁企业氧气系统涉及混合变量的复杂问题，传统求解方法仍然有待进一步改进。
[0005]深度强化学习(reinforcement learning，RL)将深度学习的感知能力和强化学习的决策能力相结合，可处理涉及高维变量的复杂调度问题。从时间差分更新方法角度，深度强化学习分为值函数算法和策略...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习混合动作空间的氧气系统调度优化方法，包括如下步骤：步骤一、氧气系统调度优化1.1确定氧气系统调度优化问题：钢铁企业氧气系统分为三个子系统：氧气发生系统、存储系统和使用系统；安排系统中各设备的运行方式和生产水平，在满足用户氧气需求的同时，提高氧气利用率，实现利益最大化；1.2优化目标1.3约束条件步骤二、基于drl的方法步骤三、结果和分析为验证HAC算法用于氧气系统调度优化的有效性与优越性，首先给出了采用HAC算法调度与实际生产的对比实验结果，并对所提出的算法结构进行分析；3.1算法验证与分析混合actor
‑
critic算法用神经网络拟合强化学习策略函数和状态动作价值函数，具有3个神经网络，即离散actor网络、连续actor网络和critic网络，将神经网络隐藏层层数设为2层，每层设置200个神经元，隐藏层的激活函数均为负斜率为0.01的ReLU函数，输出层为全连接层；采用深度学习常用思想选取超参数然后根据实际训练数据进行试错调整；3.2算法结构分析对比设置了额外奖励函数，考虑峰时谷时设备用电量对整个调度结果的影响；为验证其合理性，将原算法与不设置额外奖励的算法分别对氧气系统进行调度优化，将调度优化后的策略进行分析计算，按所提出的目标函数计算各自经济指标进行比较；不设置额外奖励函数，峰谷时设备用电量差别较小，整体经济效益平稳低于原算法调度结果；然而用原算法调度后，峰时机器消耗电量低于谷时，整体经济效益更高，比不设置额外奖励函数平均经济效益多24％；此外，混合actor
‑
critic算法建立了关联矩阵D，表明两个actor网络之间的耦合关系；为验证设置关联矩阵的必要性，对HAC算法去掉关联矩阵后进行氧气系统调度策略求解；3.3不同算法结果对比将混合actor
‑
critic算法与MP
‑
DQN算法、P
‑
DQN算法以及PADDPG算法进行对比；混合actor
‑
critic算法奖励曲线约在10000回合达到收敛且奖励值最高，MP
‑
DQN算法与P
‑
DQN算法收敛时间较长并且奖励值低于HAC算法，而PADDPG算法虽在收敛时间上较快但平均奖励值过低无法满足调度优化需求。2.根据权利要求1所述的一种基于深度强化学习混合动作空间的氧气系统调度优化方法，其特征在于，所述步骤1.2包括：以氧气系统的经济指标F为调度优化目标，考虑外售液氧收入、各设备用电消耗及氧气释放损失，其数学表达式为：F＝J
p
‑
E
‑
λ
·
J
r
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中，J
P
是氧气系统液氧外售收入，E是设备用电产生的费用，J
r
是氧气系统释放损失；氧气系统液氧外售收入J
P
为：
其中f液氧单价，为外售的液氧量；为第i个制氧机在t时刻液氧产量，为第j个液化器t时刻液化量，为第g个气化器t时刻气化量；Δt
i
、Δt
j
、Δt
g
为各制氧机、液化器、气化器开启时长，α
i
、β
j
和ρ
g
分别表示制氧机、液化器和气化器的设备开启与否，离散化为0
‑
1变量即：β
j
和ρ
g
与α
i
类似；设备用电成本E为：设备用电成本E为：为第i个制氧机在t时刻气态氧产量，和分别为制氧机、液化器和气化器用电成本，H
i
(t)、C
j
(t)和B
g
(t)为各制氧机、液化器和气化器产量与耗电量的对应函数，E(t)为实际电价；氧气系统释放损失J
r
为:为:氧气单价，氧气消散量，是在t时刻氧气储存量，在t时刻氧气使用量。3.根据权利要求1所述的一种基于深度强化学习混合动作空间的氧气系统调度优化方法，其特征在于，所述步骤1.3包括：氧气系统调度问题的约束条件包括四个部分，即物料平衡约束、气态氧气与液氧产量
比例约束、各设备运行约束以及设备开启约束；(1)物料平衡约束在t时刻，氧气管网物料平衡与液氧储罐物料平衡可表示为：在t时刻，氧气管网物料平衡与液氧储罐物料平衡可表示为：其中，分别表示t时刻液氧、气态氧、气化量、液化量总量，是t时刻液罐储存能力；(2)氧气与液氧约束产生的气态氧与液氧存在如下的关系：(3)各设备运行约束氧气系统涉及的各类设备，如制氧机、液化器、气化器、液氧储存装置等均有操作范围；1)制氧机运行约束每个制氧机都有其产氧上限和下限，分别约为生产能力的80％和105％；第i台制氧机氧气输出为相关约束为：相关约束为：和为第i台制氧机产氧量下限和上限；2)液化器运行约束与制氧机类似，液化装置的负荷范围一般在60％到100％之间；则液化器运行约束条件为：则液化器运行约束条件为：分别为第j台液化器液化量下限和上限；3)气化器运行约束气化器的气化能力不得超过设备的最大负荷：气化器的气化能力不得超过设备的最大负荷：为第g台气化装置的气化体积的上下限。4)液氧储槽容积约束考虑到设备安全，储液罐的实际容量限制在额定容量的10％～95％；液罐容积为则约束为：则约束为：分别为液氧储槽容积的上下限；(4)设备开启约束在设备空闲时才可执行开启动作且设备开启台数不大于设备总数，即∑α
i
≤n
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(13)
∑β
j
≤m
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(14)∑ρ
g
≤l
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(15)深度强化学习算法针对具体变量类型，在处理混合变量问题上具有优势；基于改进强化学习的混合变量优化调度方法，用于解决钢铁企业氧气系统调度优化问题。4.根据权利要求1所述的一种基于深度强化学习混合动作空间的氧气系统调度优化方法，其特征在于，所述步骤二包括：2.1强化学习基本原理强化学习用马尔可夫决策过程(MDP)表示；具体形式可用五元组<s,a,p,r,γ>表示，其中，s代表所有的状态，a表示的智能体可以采取的所有行动，p表示状态转移概率，r表示特定状态和动作下的即时奖励，γ表示返回的折扣；在t时刻的状态为s
t
，智能体根据策略π
t
，在环境中执行某一动作a
t
，根据状态转移概率p，在t+1时刻转移到新状态s
t+1
，环境对处于新状态的智能体产生反馈奖励r
t+1
；智能体基于新的状态s
t+1
和反馈奖励r
t+1
在t+1时刻执行一个新的动作，并通过反馈信号与环境进行迭代交互；2.2氧气系统调度优化马尔可夫模型根据上述强化学习理论建立氧气系统调度优化的马尔可夫模型，以经济指标最大化为目标:1)状态s观察到的氧气系统状态包括氧气需求、氧气排...

【专利技术属性】
技术研发人员：李丽娟，杨雪，王欢，许晓伟，张印强，
申请(专利权)人：南京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人