一种工业副产煤气系统长期调度方法技术方案

技术编号:31718194 阅读:39 留言:0更新日期:2022-01-01 11:26
一种工业副产煤气系统长期调度方法,步骤如下:针对能源数据的波动特征划分信息粒度,形成数据样本的语义表示。以粒度化的数据特征作为输入,通过专家调度经验数据构建深度对比网络结构,分别采用定性和定量学习的方式构建不同调度状态下的知识表示;再建立全连接输出层拟合专家调度量,获得基于经验知识的初始调度策略。构建actor

【技术实现步骤摘要】
一种工业副产煤气系统长期调度方法


[0001]本专利技术属于信息
,涉及到知识自动化、数据驱动建模、强化学习等技术,是一种知识、数据与动态规划相融合的工业副产能源系统长期调度方法。首先采用粒度化方式和深度对比学习获得关于能源系统调度状态的知识表示,并计算出初始调度策略。在此基础上,结合actor

critic架构的动态规划过程,实现考虑长期调度表现的策略补偿。此方法能够满足工业现场对于长期柜位控制,能源预测和平衡调度需求,且计算效率符合实际应用要求,可帮助节约调度成本,实现副产煤气系统的节能减排。

技术介绍

[0002]工业生产是高耗能和高排放的生产过程,随着煤炭、石油等一次能源的紧缺,充分利用生产过程中产生的二次能源不但可以提高企业节能降耗水平,还可减少煤气放散带来的环境污染。(金锋.基于因果模型的钢铁煤气优化调度方法与应用[D].(2020).大连理工大学)。副产煤气是工业生产过程中产生的重要二次能源,其特点是单次回收量较大,在回收阶段对能源管网平衡的冲击也较大。当出现设备检修、设备故障、生产计划变更等情况时,亦会导致管网出现供需失衡。为了更好地利用副产资源,现场调度人员需要根据当前煤气系统运行状态和生产计划对可调用户的负荷量进行调整,以保证系统的平衡运行。
[0003]随着工业信息化水平的逐步提高,各大企业积累了大量相关历史数据,为能源优化调度提供技术支持。现有的研究主要包括:基于贝叶斯网络进行建模和推理(J.Zhao,W.Wang,K.Sun,et al.(2014).A bayesiannetworks structure learning and reasoning

based byproduct gas scheduling in steel industry[J].IEEE Transactions on Automation Science and Engineering,11(4):1149

1154)、预测建模和优化调度两阶段方法(Z.Han,J.Zhao,W.Wang,&Y.Liu.(2016).A two

stage method for predicting and scheduling energy in an oxygen/nitrogen system of the steel industry[J].Control Engineering Practice,52,35

45)、因果关系建模(F.Jin,J.Zhao,Y.Liu,et al.(2021).A scheduling approach with uncertainties in generation and consumption for converter gas system in steel industry[J].Information Sciences,2021,546:312

328)等。上述研究都是针对短时间内单次能源不平衡情况进行计算,而并没有综合考虑未来一段时间内诸如设备运行变化,生产计划调整等生产环境的动态特性对于调度策略的影响。针对工业能源系统的多时间尺度调度问题,主要包括采用启发式优化方法(R.Hemmati,H.Saboori,P.Siano.(2017).Coordinated short

term scheduling and long

term expansion planning in microgrids incorporating renewable energy resources and energy storage systems[J].Energy,134:699

708.)、混合整数规划优化方法(A.Bischi,L.Taccari,E.Martelli,et al.(2019).A rolling

horizon optimization algorithm for the long term operational scheduling of cogeneration systems[J].Energy,184:73

90.)等。然而,上述文献大多采用静态的优化方式,在面对多阶段或具有多步策略的长期调度问题时,难以避免优化模
型易陷入局部最优,进而影响包括设备运行、调度经济性等长期指标。

技术实现思路

[0004]针对事件驱动的工业副产煤气系统调度过程,本专利技术首先根据生产过程数据的波动特征划分信息粒度,利用专家调度样本建立粒度对比网络,实现调度过程中关于系统运行状态的知识表示,在此基础上通过有监督学习的方式拟合专家调度量,获得初始的调度策略。考虑多步调度事件的影响,以知识表示作为强化学习的状态,基于actor

critic架构建立策略评估和动态补偿机制,进而提高能源系统的长期调度表现。该专利技术有利于减少调度成本,能够保证能源存储柜位长时间地运行在安全区间,从而为现场工作人员的调度操作提供决策支持。
[0005]本专利技术的技术方案:
[0006]一种工业副产煤气系统长期调度方法,步骤如下:
[0007](1)针对能源数据的波动特征划分信息粒度,形成数据样本的语义表示。
[0008](2)以粒度化的数据特征作为输入,通过专家调度经验数据构建深度对比网络结构,分别采用定性和定量学习的方式构建不同调度状态下的知识表示;在此基础上,建立全连接输出层拟合专家调度量,获得基于经验知识的初始调度策略。
[0009](3)构建actor

critic架构计算考虑长期调度表现的补偿策略。其中,critic部分以对比网络获得的知识表示作为状态空间,建立以调度事件为单位的评价值函数,并采用深度Q学习的方式实现策略评价;actor部分将当前的策略评价与期望目标值进行比对,基于目标的返还量计算补偿策略,得到最终的副产能源调度方案。
[0010]本专利技术的有益效果:本专利技术提出的方法结合了知识提取,数据驱动建模及动态规划过程。通过数据粒度化过程和深度对比网络实现关于能源系统调度状态的知识获取和表示;进一步构建的actor

critic架构可反映生产环境的动态变化和未来多步调度事件的影响,从而满足工业现场长期的柜位运行控制,能源预测及平衡调度需求。
附图说明
[0011]图1为本专利技术应用流程图。
[0012]图2为粒度对比网络结构图。
[0013]图3描述对比网络的多层次训练机制。
[0014]图4为critic网络结构图。
[0015]图5为300分钟的柜位调度效果对比(煤气富余情况)。其中(a)

(d)分别代表四座煤气柜。
[0016]图6为300分钟的柜位调度效果对比(煤气不足情况)。其中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种工业副产煤气系统长期调度方法,其特征在于,步骤如下:(1)能源数据的特征粒度化建模采用自适应粒度化方法,根据能源数据的波动趋势特征划分数据粒度;给定时间序列X={x1,x2,...,x
n
},其一阶和二阶动态变量表示为:Δ={Δ1,Δ2,...,Δ
n
‑1},E={e1,e2,...,e
n
‑2}
ꢀꢀꢀꢀ
(1)其中,Δ
i
=x
i+1

x
i
,e
i
=Δ
i+1

Δ
i
;通过Δ
i
×
Δ
i
‑1和e
i
×
e
i
‑1的符号判断数据点x
i
所在序列段的凹凸性和单调性变化,并在性质改变时刻划分时间序列数据;对于时间序列X={x1,x2,...,x
p
,x
p+1
,...,x
n
},若Δ
p
×
Δ
p
‑1<0∪e
p
×
e
p
‑1<0,则以x
p
作为分割点,划分X为{x1,x2,...,x
p
}和{x
p+1
,x
p+2
,...,x
n
};在实施粒度划分前,先将能源数据进行滤波预处理;为了进一步实现能源数据的语义增强,采用由时间跨度D
τ
、波动幅值A
τ
和趋势线型L
τ
组成的三维特征向量来对信息粒G
τ
进行描述,记为G
τ
={D
τ
,A
τ
,L
τ
},其中τ为粒度时间步长;(2)基于粒度对比网络的知识提取及策略计算建立粒度对比网络获得与调度状态相关的知识表示,并基于该知识表示拟合历史调度样本中的专家调整量,计算出初始调度策略;对比网络模型的输入为能源发生、消耗以及存储流量数据的信息粒描述,即其中e表示不同调度事件,n为输入因素个数;对比网络模型分为以下四个部分:1)首先根据历史时刻的专家调度数据将数据样本定性地划分为不同的子集2)通过基于神经网络的编码器f(
·
)从数据的粒度化特征描述中提取表示向量;采用长短时记忆网络来获得调度状态的特征表示,即h
e
=f(s
e
)=LSTM(s
e
),其中为网络的隐藏表示;3)通过具有单隐藏层的神经网络映射层g(
·
)将提取的表示向量映射到对比损失空间,该神经网络映射层得到的z
e
相比于上一层的h
e
具有更好的对比学习效果;采用MLP来获得最终的状态知识表示,即z
e
=g(h
e
)=MLP(h
e
);经过对比学习后,z
e
相比于s
e
能够反映出能源系统的调度状态,因此z
e
还被用于actor

critic框架中的状态空间表示;4)在知识表示向量z
e
的基础上建立全连接输出层,得到初始调度策略,即u
e
=Output(z
e
);对于所建立粒度对比网络的学习过程,分别从定性和定量的两个层次进行训练:1)通过最小化定义的损失函数,使得根据由专家调度数据定性划分在相同子集的样本1)通过最小化定义的损失函数,使得根据由专家调度数据定性划分在相同子集的样本其表示向量相互接近,而区分不同子集样本的表示向量以尽可能区分不同的调度工况;这一过程的损失函数定义如下:其中,p表示与属于同一子集的样本个数;q为不同子集样本个数;d(
·
)表示向量间的距离,采用余弦相似度来衡量;
针对专家调度数据中包含的多分类情况,提出一种多步训练策略;在训练过程中首先根据调整方向进行二分类的对比学习,之后通过构建具有不同调整量大小的输入样本再进行多次学习,使得输出的表示向量能够区分多类别的专家知识;若专家经验样本总数为N,在训练模型时使用所有可能的数据对,用于训练的数据信息量达到(N)(N

1)/2;2)在上述训练过程结束后,进一步提出多层次训练机制来实现调度知识的定量学习和细化表示;首先定义验证集{s1,s2,...,s
l
},根据上述过程得到的网络模型计算相应的知识表示{z1,z2,...z
l
};在知识表示向量的基础上建立输出层来拟合专家调度量;通过计算出的调度量与真实调度量之间的误差来判断当前获得的知识表示是否能...

【专利技术属性】
技术研发人员:王天宇赵珺王伟
申请(专利权)人:大连理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1