一种基于值分布DDPG算法的燃煤发电系统协调控制方法技术方案

技术编号：38832201 阅读：6 留言：0更新日期：2023-09-17 09:51

本发明专利技术公开了一种基于值分布DDPG算法的燃煤发电系统协调控制方法，包括：将燃煤发电系统协调控制问题建模为马尔可夫决策过程；通过Q函数评估长期期望控制代价函数，使用分位数对标量Q值进行分布建模；引入贝尔曼算子的分布型表达式构建目标分布，度量分布之间的1

全部详细技术资料下载

【技术实现步骤摘要】
一种基于值分布DDPG算法的燃煤发电系统协调控制方法

[0001]本专利技术属于燃煤发电系统数据驱动控制领域，主要涉及一种基于值分布DDPG算法的燃煤发电系统协调控制方法。

技术介绍

[0002]近年来，全球能源消耗不断提高，新型可再生能源的加入给电网稳定性带来威胁。火力发电作为主要能源来源，燃煤发电厂的安全稳定对于维护电网可靠性至关重要。锅炉
‑
汽轮机系统是火力发电厂的核心组件，需要智能化提升运行策略以满足电网需求的波动。协调控制系统对维持燃煤发电机组能源供需平衡、优化运行效率具有重要作用。近年来，有学者利用输入凸神经网络进行锅炉
‑
汽轮机系统动力学建模，采用非线性模型预测控制在宽负荷变化下实现了快速稳定的跟踪性能。此外，有学者提出基于H∞
‑
LQR的协调控制方案合理调度系统各种设备，以提高发电机组在各种工况下的负荷适应性。但这些方法依赖于建模精度，在火电机组环境变化、升级改造等情形下自适应能力较差。为此，有学者提出策略迭代积分强化学习方法设计锅炉
‑
汽轮机系统最优跟踪控制律，避免精确模型构建，提高算法自适应能力，但是没有充分考虑到燃煤发电系统环境的不确定性。
[0003]DDPG是一种在深度网络框架下结合Q学习和确定性策略梯度算法的强化学习方法，通过奖励反馈指导与环境交互进行自我学习，适用于处理复杂连续控制问题，已在风力发电机、自动驾驶、机器人、物联网等领域得到广泛应用。而燃煤发电系统环境复杂，存在许多影响因素如温度、压力、湿度、煤质...

【技术保护点】

【技术特征摘要】
1.一种基于值分布DDPG算法的燃煤发电系统协调控制方法，其特征在于，包括如下步骤：步骤1，构建燃煤发电系统协调控制代价函数；步骤2，通过Q函数评估长期期望控制所述代价函数，引入标量Q值对应的值分布形式Z，并使用分位数方法对Z分布进行分布建模；步骤3，引入贝尔曼算子的分布型表达式构建目标分布，度量Z分布与目标分布的1
‑
Wassertein最小距离，设计分位数损失，以最小化Z分布与目标分布之间的距离；步骤4，构建估计网络和目标网络，采用DDPG算法对估计网络和目标网络进行训练和更新，以实现对值分布的估计和策略的更新，得到协调控制策略。2.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法，其特征在于，步骤1中所述构建燃煤发电系统协调控制代价函数包括如下步骤：步骤101，选择蒸汽流量、燃料流量和给水流量为燃煤发电系统的控制变量；选择蒸汽压力、汽包流体密度和功率输出为燃煤发电系统的状态变量；步骤102，在强化学习框架下制定燃煤发电系统协调控制问题，定义四元组具体为：(1)为动作空间，表示强化学习智能体执行的操作a的集合，即a＝[u1,u2,u3]
T
，其中u1,u2,u3，分别代表燃料流量、蒸汽流量和汽包给水流量控制阀门开度；(2)为状态空间，表示智能体所观测的信息的集合；选择系统状态变量锅炉汽包蒸汽压力x1、电力功率x2和锅炉汽包内流体密度x3，当前系统状态与目标系统状态T
h
之间的偏差e1、e2和e3；因此，完整观测信息描述为s＝[x1,x2,x3,e1,e2,e3,u1,u2,u3]
T
#(1)(3)r为奖励函数，用于评估智能体在执行动作时的目标和效果；其中ω1、ω2和ω3分别为跟踪误差惩罚权重、控制消耗惩罚权重以及接近目标状态值的奖励权重，||e||表示当前系统状态与目标状态T
s
之间的跟踪误差范数；(4)γ为折扣因子，用于衡量未来奖励的重要性；步骤104，将燃煤发电系统协调控制问题建模为马尔可夫决策过程，智能体在时间t时的当前观测信息状态表示为在采取动作之后，它转移到下一个状态s
t+1
并从环境中获得标量奖励r
t
，以此往复，最大化所获得的累积回报为其中t
l
表示状态开始时间，γ∈(0,1)是折扣因子；步骤105，燃煤发电系统协调控制代价函数为3.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法，其特
征在于，步骤2中通过Q函数评估长期期望控制所述代价函数，引入标量Q值对应的值分布形式Z，并使用分位数方法对Z分布进行分布建模，具体包括如下步骤：步骤201，定义用于描述在特定的时间t，燃煤发电系统在当前状态s
t
时，执行动作a
t
，并且之后执行协调控制策略μ(s)的长期期望控制代价函数，即步骤202，引入标量Q值对应的值分布形式，即Z
μ
(s,a)，满足步骤203，定义[0,1]上的N个分位数点，τ1,
…
,τ
N
表示与这种Z分布相关的累积概率函数：其中表示关于Z分布的逆累积概率函数；步骤204，所述使用分位数对Z分布进行分布建模，具体为：其中表示Z
μ
(s,a)的累积概率分布的τ
i
‑
分位数。4.根据权利要求1所述一种基于值分布DDPG算法的燃煤发电系统协调控制方法，其特征在于，步骤3中引入贝尔曼算子的分布型表达式构建目标分布，度量Z分布与目标分布的1
...

【专利技术属性】
技术研发人员：刘晓敏，余梦君，祝琛，王浩宇，杨春雨，周林娜，赵峻，彭献勇，范赫，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人