【技术实现步骤摘要】
一种工业副产煤气系统长期调度方法
[0001]本专利技术属于信息
,涉及到知识自动化、数据驱动建模、强化学习等技术,是一种知识、数据与动态规划相融合的工业副产能源系统长期调度方法。首先采用粒度化方式和深度对比学习获得关于能源系统调度状态的知识表示,并计算出初始调度策略。在此基础上,结合actor
‑
critic架构的动态规划过程,实现考虑长期调度表现的策略补偿。此方法能够满足工业现场对于长期柜位控制,能源预测和平衡调度需求,且计算效率符合实际应用要求,可帮助节约调度成本,实现副产煤气系统的节能减排。
技术介绍
[0002]工业生产是高耗能和高排放的生产过程,随着煤炭、石油等一次能源的紧缺,充分利用生产过程中产生的二次能源不但可以提高企业节能降耗水平,还可减少煤气放散带来的环境污染。(金锋.基于因果模型的钢铁煤气优化调度方法与应用[D].(2020).大连理工大学)。副产煤气是工业生产过程中产生的重要二次能源,其特点是单次回收量较大,在回收阶段对能源管网平衡的冲击也较大。当出现设备检修、设备故障、生产计划变更等情况时,亦会导致管网出现供需失衡。为了更好地利用副产资源,现场调度人员需要根据当前煤气系统运行状态和生产计划对可调用户的负荷量进行调整,以保证系统的平衡运行。
[0003]随着工业信息化水平的逐步提高,各大企业积累了大量相关历史数据,为能源优化调度提供技术支持。现有的研究主要包括:基于贝叶斯网络进行建模和推理(J.Zhao,W.Wang,K.Sun,et al.(2014).A b ...
【技术保护点】
【技术特征摘要】
1.一种工业副产煤气系统长期调度方法,其特征在于,步骤如下:(1)能源数据的特征粒度化建模采用自适应粒度化方法,根据能源数据的波动趋势特征划分数据粒度;给定时间序列X={x1,x2,...,x
n
},其一阶和二阶动态变量表示为:Δ={Δ1,Δ2,...,Δ
n
‑1},E={e1,e2,...,e
n
‑2}
ꢀꢀꢀꢀ
(1)其中,Δ
i
=x
i+1
‑
x
i
,e
i
=Δ
i+1
‑
Δ
i
;通过Δ
i
×
Δ
i
‑1和e
i
×
e
i
‑1的符号判断数据点x
i
所在序列段的凹凸性和单调性变化,并在性质改变时刻划分时间序列数据;对于时间序列X={x1,x2,...,x
p
,x
p+1
,...,x
n
},若Δ
p
×
Δ
p
‑1<0∪e
p
×
e
p
‑1<0,则以x
p
作为分割点,划分X为{x1,x2,...,x
p
}和{x
p+1
,x
p+2
,...,x
n
};在实施粒度划分前,先将能源数据进行滤波预处理;为了进一步实现能源数据的语义增强,采用由时间跨度D
τ
、波动幅值A
τ
和趋势线型L
τ
组成的三维特征向量来对信息粒G
τ
进行描述,记为G
τ
={D
τ
,A
τ
,L
τ
},其中τ为粒度时间步长;(2)基于粒度对比网络的知识提取及策略计算建立粒度对比网络获得与调度状态相关的知识表示,并基于该知识表示拟合历史调度样本中的专家调整量,计算出初始调度策略;对比网络模型的输入为能源发生、消耗以及存储流量数据的信息粒描述,即其中e表示不同调度事件,n为输入因素个数;对比网络模型分为以下四个部分:1)首先根据历史时刻的专家调度数据将数据样本定性地划分为不同的子集2)通过基于神经网络的编码器f(
·
)从数据的粒度化特征描述中提取表示向量;采用长短时记忆网络来获得调度状态的特征表示,即h
e
=f(s
e
)=LSTM(s
e
),其中为网络的隐藏表示;3)通过具有单隐藏层的神经网络映射层g(
·
)将提取的表示向量映射到对比损失空间,该神经网络映射层得到的z
e
相比于上一层的h
e
具有更好的对比学习效果;采用MLP来获得最终的状态知识表示,即z
e
=g(h
e
)=MLP(h
e
);经过对比学习后,z
e
相比于s
e
能够反映出能源系统的调度状态,因此z
e
还被用于actor
‑
critic框架中的状态空间表示;4)在知识表示向量z
e
的基础上建立全连接输出层,得到初始调度策略,即u
e
=Output(z
e
);对于所建立粒度对比网络的学习过程,分别从定性和定量的两个层次进行训练:1)通过最小化定义的损失函数,使得根据由专家调度数据定性划分在相同子集的样本1)通过最小化定义的损失函数,使得根据由专家调度数据定性划分在相同子集的样本其表示向量相互接近,而区分不同子集样本的表示向量以尽可能区分不同的调度工况;这一过程的损失函数定义如下:其中,p表示与属于同一子集的样本个数;q为不同子集样本个数;d(
·
)表示向量间的距离,采用余弦相似度来衡量;
针对专家调度数据中包含的多分类情况,提出一种多步训练策略;在训练过程中首先根据调整方向进行二分类的对比学习,之后通过构建具有不同调整量大小的输入样本再进行多次学习,使得输出的表示向量能够区分多类别的专家知识;若专家经验样本总数为N,在训练模型时使用所有可能的数据对,用于训练的数据信息量达到(N)(N
‑
1)/2;2)在上述训练过程结束后,进一步提出多层次训练机制来实现调度知识的定量学习和细化表示;首先定义验证集{s1,s2,...,s
l
},根据上述过程得到的网络模型计算相应的知识表示{z1,z2,...z
l
};在知识表示向量的基础上建立输出层来拟合专家调度量;通过计算出的调度量与真实调度量之间的误差来判断当前获得的知识表示是否能...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。