【技术实现步骤摘要】
一种电热耦合系统调度方法、装置、电子设备及其存储介质
[0001]本申请属于综合能源系统运行控制
,具体而言,涉及一种电热耦合系统调度方法、装置、电子设备及其存储介质。
技术背景
[0002]为了提高多种能源的利用效率、充分利用各种能源的灵活性,减少碳排放量并提高新能源的渗透率,能源互联网及综合能源系统的概念应运而生。以电锅炉、热电联产机组为热源的供热系统是最常见的电热耦合系统。在这种供热系统中,热负荷多为建筑负荷,具有较大的热惯性。若能在电热联合调度时考虑建筑物的热惯性,则可降低总成本,为电力系统提供灵活性,减少新能源弃电。传统电热系统调度基于模型的优化,需要精确的模型。然而,建筑物热特性复杂,受很多因素影响,难以得到其精确模型。故传统的基于模型的优化可能导致建筑物温度不能达到供暖要求、难以实施且建模成本高等问题。
[0003]近年来,强化学习作为一种无模型或弱模型的控制技术,已经广泛应用到包括电力系统的各个领域的控制问题中。但强化学习基于智能体与环境的实时交互,通过观测智能体动作与系统状态之间的关系进行学习。但在供热系统中,由于在管道及热传递过程中存在很大的时延,使智能体的动作在很久以后才能影响到系统的状态,传统的强化学习算法已不能适用。
技术实现思路
[0004]本申请的目的是旨在解决已有技术中存在的问题,基于本专利技术人对以下问题和事实的认识和理解,近年来,强化学习作为一种无模型或弱模型的控制技术,已经广泛应用到包括电力系统的各个领域的控制问题中,例如强化学习基于强化学习网络与环 ...
【技术保护点】
【技术特征摘要】
1.一种电热耦合系统调度方法,其特征在于,包括:步骤1,构建一个用于电热耦合系统调度的强化学习网络;步骤2,实时采集电热耦合系统中的量测数据,对所述强化学习网络进行训练,更新强化学习网络中的参数;步骤3,利用训练好的强化学习网络,根据实时采集的量测数据输出动作,对电热耦合系统进行控制。2.根据权利要求1所述的电热耦合系统调度方法,其特征在于,所述的用于电热耦合系统调度的强化学习网络,包括生成器μ和评价器Q,其中:(a)生成器μ的表达式为a
t
=μ(o
t
|θ
μ
),其中,θ
μ
表示生成器μ的模型参数,生成器的输入为电热耦合系统经过t个时间步后的量测信息o
t
:其中,为管道进行空间差分后存在温度量测的微元的温度构成的向量,为T
pipe
的真子集,T
pipe
代表管道进行空间差分后各管道微元的温度构成的向量,T
in
代表所有建筑物室内温度构成的向量,T
a
代表室外建筑物环境温度,c代表电价,h代表热源输出功率,t代表控制过程中的离散时间变量,Π代表附加记忆参数,(
·
)
t
代表在t控制时刻的取值;生成器的输出为电热耦合系统在量测信息o
t
下需要执行的控制策略的动作向量:a
t
=(m,T
s
,a
m
)其中,m为所有管道质量流量构成的列向量,T
s
为热源供热温度,a
m
为决定是否将当前观测和动作存储至记忆体中的变量;生成器μ的具体结构如下:生成器μ的输入层包含N
o
个神经元,其中N
o
为量测向量o
t
的维度;生成器μ的隐含层包含b1个隐含层,隐含层的个数b1、每一层隐含层的神经元数目、激活函数根据人工经验或计算精度要求反复试探来确定,隐含层的激活函数为ReLU;生成器μ的输出层包含N
a
个神经元,其中N
a
为动作向量a
t
的维度,输出层的激活函数为tanh激活函数;(b)评价器Q的表达式为其中θ
Q
为评价器Q的模型参数,评价器Q的输入为o
t
和a
t
,评价器Q的输出为在量测值为o
t
时执行动作a
t
的评价值评价器Q的结构如下:评价器Q的输入层包含(N
o
+N
a
)个神经元;评价器Q的隐含层包含b2个隐含层,隐含层的个数b2、每一层隐含层的神经元数目、激活函数根据人工经验或计算精度要求反复试探来确定,隐含层的激活函数为ReLU;评价器Q的输出层包含1个神经元,输出层的激活函数为线性激活函数。3.根据权利要求1所述的电热耦合系统调度方法,其特征在于,所述的采集电热耦合系统中的量测数据,根据所述量测数据,对所述强化学习网络进行训练,更新强化学习网络中的参数,包括:(1)强化学习参数初始化,具体如下:随机初始化生成器μ和评价器Q参数θ
μ
,θ
Q
;设置强化学习网络的最大熵参数α
f
,α
f
为人工
设定的常数;初始化离散时间变量t=0,训练周期数k
s
=0;初始化附加记忆参数Π构成的向量数据集为空集,并选取附加记忆可存储的数据个数k
m
;初始化动作集a为空,初始化强化学习网络经验库D为空集;设置总训练周期数N
max
,一天内的总控制步数N
pt
;(2)在t控制时刻执行如下步骤,对强化学习网络进行训练:(2
‑
1)从电热耦合系统量测装置实时采集管道量测值建筑物室内温度T
in
、室外建筑物环境温度T
a
、电价c、热源输出功率h和控制时刻t,从强化学习网络的附加记忆中获取Π,将获取信息组成的向量记为o',含义为采集的量测向量;(2
‑
2)对动作集a进行判断:若a为空,则进入步骤(2
‑
3),若a不为空,则根据下式计算执行动时作a的评价值r,并向强化学习网络经验库D中增加一个经验样本,更新D
←
D∪{(o,a,r,o')},进行步骤(2
‑
3):其中,η为电锅炉的电转热效率,和T
in,i
为建筑物i室内温度的上限和下限,T
in,i
为建筑物i的室内温度,Φ
L
为所有建筑物构成的集合,ReLU(x)为一个激活函数,定义为ReLU(x)=max(0,x);(2
‑
3)令量测信息o=o';(2
‑
4)根据观测信息o,利用生成器网络μ,生成动作a=(m,T
s
,a
m
)=μ(o|θ
μ
);(2
‑
5)对a
m
进行判断,若a
【专利技术属性】
技术研发人员:孙宏斌,王宣元,席嫣娜,郭庆来,宁卜,张浩,张宏宇,王彬,刘庆时,赵昊天,刘蓁,韦凌霄,潘昭光,
申请(专利权)人:国网冀北电力有限公司国网北京市电力公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。