一种电热耦合系统调度方法、装置、电子设备及其存储介质制造方法及图纸

技术编号:31312411 阅读:14 留言:0更新日期:2021-12-12 21:47
本申请属于综合能源系统运行控制技术领域,具体而言,涉及一种电热耦合系统调度方法、装置、电子设备及其存储介质。本方法首先构建一个用于电热耦合系统调度的强化学习网络;实时采集电热耦合系统中的量测数据,根据量测数据及电热耦合系统对控制信号的反应情况,对所述强化学习网络进行训练,更新强化学习网络中的参数;利用训练好的强化学习网络,根据实时采集的量测数据输出动作,对电热耦合系统进行控制。克服传统基于模型的优化方法和传统强化学习算法的不足之处,基于附加记忆的强化学习,不依赖于建筑物的精确模型,且可处理电热耦合系统中热传递大时延带来的难以学习的问题,最大限度挖掘负荷侧的灵活性,适于在线应用。用。用。

【技术实现步骤摘要】
一种电热耦合系统调度方法、装置、电子设备及其存储介质


[0001]本申请属于综合能源系统运行控制
,具体而言,涉及一种电热耦合系统调度方法、装置、电子设备及其存储介质。
技术背景
[0002]为了提高多种能源的利用效率、充分利用各种能源的灵活性,减少碳排放量并提高新能源的渗透率,能源互联网及综合能源系统的概念应运而生。以电锅炉、热电联产机组为热源的供热系统是最常见的电热耦合系统。在这种供热系统中,热负荷多为建筑负荷,具有较大的热惯性。若能在电热联合调度时考虑建筑物的热惯性,则可降低总成本,为电力系统提供灵活性,减少新能源弃电。传统电热系统调度基于模型的优化,需要精确的模型。然而,建筑物热特性复杂,受很多因素影响,难以得到其精确模型。故传统的基于模型的优化可能导致建筑物温度不能达到供暖要求、难以实施且建模成本高等问题。
[0003]近年来,强化学习作为一种无模型或弱模型的控制技术,已经广泛应用到包括电力系统的各个领域的控制问题中。但强化学习基于智能体与环境的实时交互,通过观测智能体动作与系统状态之间的关系进行学习。但在供热系统中,由于在管道及热传递过程中存在很大的时延,使智能体的动作在很久以后才能影响到系统的状态,传统的强化学习算法已不能适用。

技术实现思路

[0004]本申请的目的是旨在解决已有技术中存在的问题,基于本专利技术人对以下问题和事实的认识和理解,近年来,强化学习作为一种无模型或弱模型的控制技术,已经广泛应用到包括电力系统的各个领域的控制问题中,例如强化学习基于强化学习网络与环境的实时交互,通过观测智能体动作与系统状态之间的关系进行学习。但在供热系统中,由于在管道及热传递过程中存在很大的时延,使强化学习网络的动作在很久以后才能影响到系统的状态,传统的强化学习算法已不能适用。
[0005]有鉴于此,本公开提出了电热耦合系统调度方法、装置、电子设备及其存储介质,以解决相关技术中的技术问题。
[0006]根据本公开的第一方面,提出电热耦合系统调度方法,包括:
[0007]构建一个用于电热耦合系统调度的强化学习网络;
[0008]实时采集电热耦合系统中的量测数据,对所述强化学习网络进行训练,更新强化学习网络中的参数;
[0009]利用训练好的强化学习网络,根据实时采集的量测数据输出动作,对电热耦合系统进行控制。
[0010]可选地,所述的用于电热耦合系统调度的强化学习网络,包括生成器μ和评价器Q,其中:
[0011]所述生成器μ的表达式为a
t
=μ(o
t

μ
),其中,θ
μ
表示生成器μ的模型参数,生成器
的输入为电热耦合系统经过t个时间步后的量测信息o
t

[0012][0013]其中,为管道进行空间差分后存在温度量测的微元的温度构成的向量,为T
pipe
的真子集,T
pipe
代表管道进行空间差分后各管道微元的温度构成的向量,T
in
代表所有建筑物室内温度构成的向量,T
a
代表室外建筑物环境温度,c代表电价,h代表热源输出功率,t代表控制过程中的离散时间变量,Π代表附加记忆参数,(
·
)
t
代表在t控制时刻的取值;
[0014]生成器的输出为电热耦合系统在量测信息o
t
下需要执行的控制策略的动作向量:
[0015]a
t
=(m,T
s
,a
m
)
[0016]其中,m为所有管道质量流量构成的列向量,T
s
为热源供热温度,a
m
为决定是否将当前观测和动作存储至记忆体中的变量;
[0017]生成器μ的具体结构如下:
[0018]生成器μ的输入层包含N
o
个神经元,其中N
o
为量测向量o
t
的维度;
[0019]生成器μ的隐含层包含b1个隐含层,隐含层的个数b1、每一层隐含层的神经元数目、激活函数根据人工经验或计算精度要求反复试探来确定,隐含层的激活函数为ReLU;
[0020]生成器μ的输出层包含N
a
个神经元,其中N
a
为动作向量a
t
的维度,输出层的激活函数为tanh激活函数;
[0021]所述评价器Q的表达式为其中θ
Q
为评价器Q的模型参数,评价器Q的输入为o
t
和a
t
,评价器Q的输出为在量测值为o
t
时执行动作a
t
的评价值
[0022]评价器Q的结构如下:
[0023]评价器Q的输入层包含(N
o
+N
a
)个神经元;
[0024]评价器Q的隐含层包含b2个隐含层,隐含层的个数b2、每一层隐含层的神经元数目、激活函数根据人工经验或计算精度要求反复试探来确定,隐含层的激活函数为ReLU;
[0025]评价器Q的输出层包含1个神经元,输出层的激活函数为线性激活函数。
[0026]可选地,所述采集电热耦合系统中的量测数据,根据所述量测数据,对所述强化学习网络进行训练,更新强化学习网络中的参数,包括:
[0027](1)强化学习参数初始化,具体如下:
[0028]随机初始化生成器μ和评价器Q参数θ
μ

Q
;设置强化学习网络的最大熵参数α
f
,α
f
为人工设定的常数;初始化离散时间变量t=0,训练周期数k
s
=0;初始化附加记忆参数Π构成的向量数据集为空集,并选取附加记忆可存储的数据个数k
m
;初始化动作集a为空,初始化强化学习网络经验库D为空集;设置总训练周期数N
max
,一天内的总控制步数N
pt

[0029](2)在t控制时刻执行如下步骤,对强化学习网络进行训练:
[0030](2

1)从电热耦合系统量测装置实时采集管道量测值建筑物室内温度T
in
、室外建筑物环境温度T
a
、电价c、热源输出功率h和控制时刻t,从强化学习网络的附加记忆中获取Π,将获取信息组成的向量记为o',含义为采集的量测向量;
[0031](2

2)对动作集a进行判断:若a为空,则进入步骤(2

3),若a不为空,则根据下式计
算执行动时作a的评价值r,并向强化学习网络经验库D中增加一个经验样本,更新D

D∪{(o,a,r,o')},进行步骤(2

3):
[0032][0033]其中,η为电锅炉的电转热效率,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种电热耦合系统调度方法,其特征在于,包括:步骤1,构建一个用于电热耦合系统调度的强化学习网络;步骤2,实时采集电热耦合系统中的量测数据,对所述强化学习网络进行训练,更新强化学习网络中的参数;步骤3,利用训练好的强化学习网络,根据实时采集的量测数据输出动作,对电热耦合系统进行控制。2.根据权利要求1所述的电热耦合系统调度方法,其特征在于,所述的用于电热耦合系统调度的强化学习网络,包括生成器μ和评价器Q,其中:(a)生成器μ的表达式为a
t
=μ(o
t

μ
),其中,θ
μ
表示生成器μ的模型参数,生成器的输入为电热耦合系统经过t个时间步后的量测信息o
t
:其中,为管道进行空间差分后存在温度量测的微元的温度构成的向量,为T
pipe
的真子集,T
pipe
代表管道进行空间差分后各管道微元的温度构成的向量,T
in
代表所有建筑物室内温度构成的向量,T
a
代表室外建筑物环境温度,c代表电价,h代表热源输出功率,t代表控制过程中的离散时间变量,Π代表附加记忆参数,(
·
)
t
代表在t控制时刻的取值;生成器的输出为电热耦合系统在量测信息o
t
下需要执行的控制策略的动作向量:a
t
=(m,T
s
,a
m
)其中,m为所有管道质量流量构成的列向量,T
s
为热源供热温度,a
m
为决定是否将当前观测和动作存储至记忆体中的变量;生成器μ的具体结构如下:生成器μ的输入层包含N
o
个神经元,其中N
o
为量测向量o
t
的维度;生成器μ的隐含层包含b1个隐含层,隐含层的个数b1、每一层隐含层的神经元数目、激活函数根据人工经验或计算精度要求反复试探来确定,隐含层的激活函数为ReLU;生成器μ的输出层包含N
a
个神经元,其中N
a
为动作向量a
t
的维度,输出层的激活函数为tanh激活函数;(b)评价器Q的表达式为其中θ
Q
为评价器Q的模型参数,评价器Q的输入为o
t
和a
t
,评价器Q的输出为在量测值为o
t
时执行动作a
t
的评价值评价器Q的结构如下:评价器Q的输入层包含(N
o
+N
a
)个神经元;评价器Q的隐含层包含b2个隐含层,隐含层的个数b2、每一层隐含层的神经元数目、激活函数根据人工经验或计算精度要求反复试探来确定,隐含层的激活函数为ReLU;评价器Q的输出层包含1个神经元,输出层的激活函数为线性激活函数。3.根据权利要求1所述的电热耦合系统调度方法,其特征在于,所述的采集电热耦合系统中的量测数据,根据所述量测数据,对所述强化学习网络进行训练,更新强化学习网络中的参数,包括:(1)强化学习参数初始化,具体如下:随机初始化生成器μ和评价器Q参数θ
μ

Q
;设置强化学习网络的最大熵参数α
f
,α
f
为人工
设定的常数;初始化离散时间变量t=0,训练周期数k
s
=0;初始化附加记忆参数Π构成的向量数据集为空集,并选取附加记忆可存储的数据个数k
m
;初始化动作集a为空,初始化强化学习网络经验库D为空集;设置总训练周期数N
max
,一天内的总控制步数N
pt
;(2)在t控制时刻执行如下步骤,对强化学习网络进行训练:(2

1)从电热耦合系统量测装置实时采集管道量测值建筑物室内温度T
in
、室外建筑物环境温度T
a
、电价c、热源输出功率h和控制时刻t,从强化学习网络的附加记忆中获取Π,将获取信息组成的向量记为o',含义为采集的量测向量;(2

2)对动作集a进行判断:若a为空,则进入步骤(2

3),若a不为空,则根据下式计算执行动时作a的评价值r,并向强化学习网络经验库D中增加一个经验样本,更新D

D∪{(o,a,r,o')},进行步骤(2

3):其中,η为电锅炉的电转热效率,和T
in,i
为建筑物i室内温度的上限和下限,T
in,i
为建筑物i的室内温度,Φ
L
为所有建筑物构成的集合,ReLU(x)为一个激活函数,定义为ReLU(x)=max(0,x);(2

3)令量测信息o=o';(2

4)根据观测信息o,利用生成器网络μ,生成动作a=(m,T
s
,a
m
)=μ(o|θ
μ
);(2

5)对a
m
进行判断,若a

【专利技术属性】
技术研发人员:孙宏斌王宣元席嫣娜郭庆来宁卜张浩张宏宇王彬刘庆时赵昊天刘蓁韦凌霄潘昭光
申请(专利权)人:国网冀北电力有限公司国网北京市电力公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1