一种电热耦合系统调度方法、装置、电子设备及其存储介质制造方法及图纸

技术编号：31312411 阅读：14 留言：0更新日期：2021-12-12 21:47

本申请属于综合能源系统运行控制技术领域，具体而言，涉及一种电热耦合系统调度方法、装置、电子设备及其存储介质。本方法首先构建一个用于电热耦合系统调度的强化学习网络；实时采集电热耦合系统中的量测数据，根据量测数据及电热耦合系统对控制信号的反应情况，对所述强化学习网络进行训练，更新强化学习网络中的参数；利用训练好的强化学习网络，根据实时采集的量测数据输出动作，对电热耦合系统进行控制。克服传统基于模型的优化方法和传统强化学习算法的不足之处，基于附加记忆的强化学习，不依赖于建筑物的精确模型，且可处理电热耦合系统中热传递大时延带来的难以学习的问题，最大限度挖掘负荷侧的灵活性，适于在线应用。用。用。

全部详细技术资料下载

【技术实现步骤摘要】
一种电热耦合系统调度方法、装置、电子设备及其存储介质

[0001]本申请属于综合能源系统运行控制
，具体而言，涉及一种电热耦合系统调度方法、装置、电子设备及其存储介质。
技术背景
[0002]为了提高多种能源的利用效率、充分利用各种能源的灵活性，减少碳排放量并提高新能源的渗透率，能源互联网及综合能源系统的概念应运而生。以电锅炉、热电联产机组为热源的供热系统是最常见的电热耦合系统。在这种供热系统中，热负荷多为建筑负荷，具有较大的热惯性。若能在电热联合调度时考虑建筑物的热惯性，则可降低总成本，为电力系统提供灵活性，减少新能源弃电。传统电热系统调度基于模型的优化，需要精确的模型。然而，建筑物热特性复杂，受很多因素影响，难以得到其精确模型。故传统的基于模型的优化可能导致建筑物温度不能达到供暖要求、难以实施且建模成本高等问题。
[0003]近年来，强化学习作为一种无模型或弱模型的控制技术，已经广泛应用到包括电力系统的各个领域的控制问题中。但强化学习基于智能体与环境的实时交互，通过观测智能体动作与系统状态之间的关系进行学习。但在供热系统中，由于在管道及热传递过程中存在很大的时延，使智能体的动作在很久以后才能影响到系统的状态，传统的强化学习算法已不能适用。

技术实现思路

[0004]本申请的目的是旨在解决已有技术中存在的问题，基于本专利技术人对以下问题和事实的认识和理解，近年来，强化学习作为一种无模型或弱模型的控制技术，已经广泛应用到包括电力系统的各个领域的控制问题中，例如强化学习基于强化学习网络与环...

【技术保护点】

【技术特征摘要】
1.一种电热耦合系统调度方法，其特征在于，包括：步骤1，构建一个用于电热耦合系统调度的强化学习网络；步骤2，实时采集电热耦合系统中的量测数据，对所述强化学习网络进行训练，更新强化学习网络中的参数；步骤3，利用训练好的强化学习网络，根据实时采集的量测数据输出动作，对电热耦合系统进行控制。2.根据权利要求1所述的电热耦合系统调度方法，其特征在于，所述的用于电热耦合系统调度的强化学习网络，包括生成器μ和评价器Q，其中：(a)生成器μ的表达式为a
t
＝μ(o
t
|θ
μ
)，其中，θ
μ
表示生成器μ的模型参数，生成器的输入为电热耦合系统经过t个时间步后的量测信息o
t
：其中，为管道进行空间差分后存在温度量测的微元的温度构成的向量，为T
pipe
的真子集，T
pipe
代表管道进行空间差分后各管道微元的温度构成的向量，T
in
代表所有建筑物室内温度构成的向量，T
a
代表室外建筑物环境温度，c代表电价，h代表热源输出功率，t代表控制过程中的离散时间变量，Π代表附加记忆参数，(
·
)
t
代表在t控制时刻的取值；生成器的输出为电热耦合系统在量测信息o
t
下需要执行的控制策略的动作向量：a
t
＝(m,T
s
,a
m
)其中，m为所有管道质量流量构成的列向量，T
s
为热源供热温度，a
m
为决定是否将当前观测和动作存储至记忆体中的变量；生成器μ的具体结构如下：生成器μ的输入层包含N
o
个神经元，其中N
o
为量测向量o
t
的维度；生成器μ的隐含层包含b1个隐含层，隐含层的个数b1、每一层隐含层的神经元数目、激活函数根据人工经验或计算精度要求反复试探来确定，隐含层的激活函数为ReLU；生成器μ的输出层包含N
a
个神经元，其中N
a
为动作向量a
t
的维度，输出层的激活函数为tanh激活函数；(b)评价器Q的表达式为其中θ
Q
为评价器Q的模型参数，评价器Q的输入为o
t
和a
t
，评价器Q的输出为在量测值为o
t
时执行动作a
t
的评价值评价器Q的结构如下：评价器Q的输入层包含(N
o
+N
a
)个神经元；评价器Q的隐含层包含b2个隐含层，隐含层的个数b2、每一层隐含层的神经元数目、激活函数根据人工经验或计算精度要求反复试探来确定，隐含层的激活函数为ReLU；评价器Q的输出层包含1个神经元，输出层的激活函数为线性激活函数。3.根据权利要求1所述的电热耦合系统调度方法，其特征在于，所述的采集电热耦合系统中的量测数据，根据所述量测数据，对所述强化学习网络进行训练，更新强化学习网络中的参数，包括：(1)强化学习参数初始化，具体如下：随机初始化生成器μ和评价器Q参数θ
μ
,θ
Q
；设置强化学习网络的最大熵参数α
f
，α
f
为人工
设定的常数；初始化离散时间变量t＝0，训练周期数k
s
＝0；初始化附加记忆参数Π构成的向量数据集为空集，并选取附加记忆可存储的数据个数k
m
；初始化动作集a为空，初始化强化学习网络经验库D为空集；设置总训练周期数N
max
，一天内的总控制步数N
pt
；(2)在t控制时刻执行如下步骤，对强化学习网络进行训练：(2
‑
1)从电热耦合系统量测装置实时采集管道量测值建筑物室内温度T
in
、室外建筑物环境温度T
a
、电价c、热源输出功率h和控制时刻t，从强化学习网络的附加记忆中获取Π，将获取信息组成的向量记为o'，含义为采集的量测向量；(2
‑
2)对动作集a进行判断：若a为空，则进入步骤(2
‑
3)，若a不为空，则根据下式计算执行动时作a的评价值r，并向强化学习网络经验库D中增加一个经验样本，更新D
←
D∪{(o,a,r,o')}，进行步骤(2
‑
3)：其中，η为电锅炉的电转热效率，和T
in,i
为建筑物i室内温度的上限和下限，T
in,i
为建筑物i的室内温度，Φ
L
为所有建筑物构成的集合，ReLU(x)为一个激活函数，定义为ReLU(x)＝max(0,x)；(2
‑
3)令量测信息o＝o'；(2
‑
4)根据观测信息o，利用生成器网络μ，生成动作a＝(m,T
s
,a
m
)＝μ(o|θ
μ
)；(2
‑
5)对a
m
进行判断，若a

【专利技术属性】
技术研发人员：孙宏斌，王宣元，席嫣娜，郭庆来，宁卜，张浩，张宏宇，王彬，刘庆时，赵昊天，刘蓁，韦凌霄，潘昭光，
申请(专利权)人：国网冀北电力有限公司国网北京市电力公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人