一种基于值分布DDPG算法的燃煤发电系统协调控制方法技术方案

技术编号:38832201 阅读:6 留言:0更新日期:2023-09-17 09:51
本发明专利技术公开了一种基于值分布DDPG算法的燃煤发电系统协调控制方法,包括:将燃煤发电系统协调控制问题建模为马尔可夫决策过程;通过Q函数评估长期期望控制代价函数,使用分位数对标量Q值进行分布建模;引入贝尔曼算子的分布型表达式构建目标分布,度量分布之间的1

【技术实现步骤摘要】
一种基于值分布DDPG算法的燃煤发电系统协调控制方法


[0001]本专利技术属于燃煤发电系统数据驱动控制领域,主要涉及一种基于值分布DDPG算法的燃煤发电系统协调控制方法。

技术介绍

[0002]近年来,全球能源消耗不断提高,新型可再生能源的加入给电网稳定性带来威胁。火力发电作为主要能源来源,燃煤发电厂的安全稳定对于维护电网可靠性至关重要。锅炉

汽轮机系统是火力发电厂的核心组件,需要智能化提升运行策略以满足电网需求的波动。协调控制系统对维持燃煤发电机组能源供需平衡、优化运行效率具有重要作用。近年来,有学者利用输入凸神经网络进行锅炉

汽轮机系统动力学建模,采用非线性模型预测控制在宽负荷变化下实现了快速稳定的跟踪性能。此外,有学者提出基于H∞

LQR的协调控制方案合理调度系统各种设备,以提高发电机组在各种工况下的负荷适应性。但这些方法依赖于建模精度,在火电机组环境变化、升级改造等情形下自适应能力较差。为此,有学者提出策略迭代积分强化学习方法设计锅炉

汽轮机系统最优跟踪控制律,避免精确模型构建,提高算法自适应能力,但是没有充分考虑到燃煤发电系统环境的不确定性。
[0003]DDPG是一种在深度网络框架下结合Q学习和确定性策略梯度算法的强化学习方法,通过奖励反馈指导与环境交互进行自我学习,适用于处理复杂连续控制问题,已在风力发电机、自动驾驶、机器人、物联网等领域得到广泛应用。而燃煤发电系统环境复杂,存在许多影响因素如温度、压力、湿度、煤质等,这些因素对发电效率和燃烧效果产生重要影响。而现有的DDPG算法大多基于固定Q值函数评价当前状态

动作下执行策略带来的期望回报,无法反映环境不确定性对策略评价的影响。
[0004]因此,迫切需要开发一种具有自适应、自学习和处理不确定性环境能力的DDPG算法,解决给定目标下燃煤发电系统的协调控制问题。

技术实现思路

[0005]专利技术目的:解决含有未建模动态和不确定环境因素的燃煤发电系统协调控制问题,使得燃煤发电系统控制策略具有自适应、自学习能力,引入值分布形式解决了标量Q值难以表示不确定燃煤发电系统的价值估计的问题。
[0006]
技术实现思路
:本专利技术提出了一种基于值分布DDPG算法的燃煤发电系统协调控制方法,包括:
[0007]步骤1,构建燃煤发电系统协调控制代价函数;
[0008]步骤2,通过Q函数评估长期期望控制代价函数,引入标量Q值对应的值分布形式Z,并使用分位数方法对Z分布进行分布建模;
[0009]步骤3,引入贝尔曼算子的分布型表达式构建目标分布,度量Z分布与目标分布的1

Wassertein最小距离,设计分位数损失以最小化分布之间的距离;
[0010]步骤4,构建估计网络和目标网络两个行动者

评论家网络结构,标准化燃煤发电
系统的数据样本,将分位数Huber损失作为估计网络和目标网络的一个损失函数,采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新,得到协调控制策略。
[0011]进一步的,步骤1具体包括如下内容:
[0012]步骤101,分析燃煤发电系统运行特性,具体体现在:对于燃煤发电系统来说,蒸汽输出是至关重要的,因为它直接关系到电厂的功率输出效果。燃料流量直接影响燃烧效率,而给水量和蒸汽流量阀门直接影响蒸汽输出。燃煤发电厂需要实现汽包水位的稳定,以提高锅炉的性能。此外,水位的高度依赖于控制输入,直接控制水位相当繁琐,通过汽包蒸汽压力和汽包内流体密度间接反映水位变化。燃煤发电机组运行过程中,协调控制系统旨在使机组能够满足电负荷需求下,同时将蒸汽压力、电力功率和汽包水位稳定在所需水平,从而尽可能地减少能源消耗;
[0013]步骤102,根据运行特性,选择蒸汽流量、燃料流量和给水流量为控制变量,选择蒸汽压力、汽包流体密度和功率输出为状态变量;
[0014]步骤103,在强化学习框架下制定燃煤发电系统协调控制问题,需定义一个四元组具体为:
[0015](1)为动作空间,表示强化学习智能体可以执行的操作的集合。对于协调控制问题,控制输入可以作为智能体的动作,即a=[a1,a2,u3]T
,其中u1,u2,u3,分别代表燃料流量、蒸汽流量和汽包给水流量控制阀门开度。每个阀门可以旋转的范围为(0,1),每个控制变量是连续的动作空间,0表示完全关闭和1表示完全开放;
[0016](2)为状态空间,表示智能体所观测的信息的集合。选择系统状态变量锅炉汽包蒸汽压力x1(kg/cm2)、电力功率x2(MW)和锅炉汽包内流体密度x3(kg/cm3),当前状态与目标状态T
h
之间的偏差e1、e2和e3;
[0017]其中,h=1、2或3;e1表示前系统状态变量锅炉汽包蒸汽压力x1与目标系统状态量锅炉汽包蒸汽压力h1之间的偏差;
[0018]e2表示前系统状态变量电力功率x2与目标系统状态变量电力功率h2之间的偏差;
[0019]e3表示前系统状态变量锅炉汽包内流体密度x3与目标系统状态变量锅炉汽包内流体密度h3之间的偏差;
[0020]同时将当前控制输入a=[u1,u2,u3]T
作为观测状态信息的一部分,因此完整观测信息可以描述为
[0021]s=[x1,x2,x3,e1,e2,e3,u1,u2,u3]T
#(1)
[0022](3)r为奖励函数,用于评估智能体在执行动作时的目标和效果。当系统状态远离目标状态T
s
时设置一定的惩罚项,在系统状态靠近目标状态时,设置额外奖励项,因此设定奖励r为
[0023][0024]其中ω1、ω2和ω3分别为跟踪误差惩罚权重、控制消耗惩罚权重以及接近目标状态值的奖励权重,||e||表示当前系统状态与目标状态T
s
之间的跟踪误差范数;
[0025](4)γ为折扣因子,用于衡量未来奖励的重要性。具体来说,折扣因子决定了智能体对未来奖励的降低程度;
[0026]步骤104,将燃煤发电系统协调控制问题建模为马尔可夫决策过程,具体来说,考虑一个智能体,其时间t时的当前观测信息状态表示为在采取动作之后,它转移到下一个状态s
t+1
并从环境中获得标量奖励r
t
,以此往复,最大化所获得的累积回报为
[0027][0028]其中t
l
表示状态开始时间,γ∈(0,1)是折扣因子;
[0029]步骤105,燃煤发电系统协调控制代价函数为
[0030][0031]进一步的,步骤2具体包括如下内容;
[0032]步骤201,定义用于描述在特定的时间t,燃煤发电系统在状态s
t
时,执行动作a
t
,并且之后执行协调控制策略μ(s)的长期期望控制代价函数,即
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于值分布DDPG算法的燃煤发电系统协调控制方法,其特征在于,包括如下步骤:步骤1,构建燃煤发电系统协调控制代价函数;步骤2,通过Q函数评估长期期望控制所述代价函数,引入标量Q值对应的值分布形式Z,并使用分位数方法对Z分布进行分布建模;步骤3,引入贝尔曼算子的分布型表达式构建目标分布,度量Z分布与目标分布的1

Wassertein最小距离,设计分位数损失,以最小化Z分布与目标分布之间的距离;步骤4,构建估计网络和目标网络,采用DDPG算法对估计网络和目标网络进行训练和更新,以实现对值分布的估计和策略的更新,得到协调控制策略。2.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法,其特征在于,步骤1中所述构建燃煤发电系统协调控制代价函数包括如下步骤:步骤101,选择蒸汽流量、燃料流量和给水流量为燃煤发电系统的控制变量;选择蒸汽压力、汽包流体密度和功率输出为燃煤发电系统的状态变量;步骤102,在强化学习框架下制定燃煤发电系统协调控制问题,定义四元组具体为:(1)为动作空间,表示强化学习智能体执行的操作a的集合,即a=[u1,u2,u3]
T
,其中u1,u2,u3,分别代表燃料流量、蒸汽流量和汽包给水流量控制阀门开度;(2)为状态空间,表示智能体所观测的信息的集合;选择系统状态变量锅炉汽包蒸汽压力x1、电力功率x2和锅炉汽包内流体密度x3,当前系统状态与目标系统状态T
h
之间的偏差e1、e2和e3;因此,完整观测信息描述为s=[x1,x2,x3,e1,e2,e3,u1,u2,u3]
T
#(1)(3)r为奖励函数,用于评估智能体在执行动作时的目标和效果;其中ω1、ω2和ω3分别为跟踪误差惩罚权重、控制消耗惩罚权重以及接近目标状态值的奖励权重,||e||表示当前系统状态与目标状态T
s
之间的跟踪误差范数;(4)γ为折扣因子,用于衡量未来奖励的重要性;步骤104,将燃煤发电系统协调控制问题建模为马尔可夫决策过程,智能体在时间t时的当前观测信息状态表示为在采取动作之后,它转移到下一个状态s
t+1
并从环境中获得标量奖励r
t
,以此往复,最大化所获得的累积回报为其中t
l
表示状态开始时间,γ∈(0,1)是折扣因子;步骤105,燃煤发电系统协调控制代价函数为3.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法,其特
征在于,步骤2中通过Q函数评估长期期望控制所述代价函数,引入标量Q值对应的值分布形式Z,并使用分位数方法对Z分布进行分布建模,具体包括如下步骤:步骤201,定义用于描述在特定的时间t,燃煤发电系统在当前状态s
t
时,执行动作a
t
,并且之后执行协调控制策略μ(s)的长期期望控制代价函数,即步骤202,引入标量Q值对应的值分布形式,即Z
μ
(s,a),满足步骤203,定义[0,1]上的N个分位数点,τ1,


N
表示与这种Z分布相关的累积概率函数:其中表示关于Z分布的逆累积概率函数;步骤204,所述使用分位数对Z分布进行分布建模,具体为:其中表示Z
μ
(s,a)的累积概率分布的τ
i

分位数。4.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法,其特征在于,步骤3中引入贝尔曼算子的分布型表达式构建目标分布,度量Z分布与目标分布的1
...

【专利技术属性】
技术研发人员:刘晓敏余梦君祝琛王浩宇杨春雨周林娜赵峻彭献勇范赫
申请(专利权)人:中国矿业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1