深度强化学习与PI控制结合的负荷频率控制方法技术

技术编号：35933373 阅读：16 留言：0更新日期：2022-12-14 10:19

本发明专利技术公开了一种深度强化学习与PI控制结合的负荷频率控制方法，包括以下步骤：S1、构建深度强化学习控制器，包括Actor网络、Critic网络、Actor目标网络和Critic目标网络；S2、将频率信息通过信号处理器处理为状态信号并分别输入Actor网络和Actor目标网络；S3、Actor网络根据策略选取一个动作，输入电力系统和Critic网络，计算奖励信息并分别输入Actor网络和Actor目标网络；S4、更新状态价值，计算动作价值，计算Crtic网络的误差，计算Crtic网络的梯度，计算Actor网络的梯度；S5、比较Actor网络和Actor目标网络的参数、以及Critic网络和Critic目标网络的参数是否相同，判断是否继续训练；S6、将PI控制器和深度强化学习控制器接入电力系统，将频率变化量与设定值相比较，选取控制器对发电机调速器进行控制。取控制器对发电机调速器进行控制。取控制器对发电机调速器进行控制。

全部详细技术资料下载

【技术实现步骤摘要】
深度强化学习与PI控制结合的负荷频率控制方法

[0001]本专利技术属于新型电力
，具体涉及一种深度强化学习与PI控制结合的负荷频率控制方法。

技术介绍

[0002]新型电力系统中新能源将成为主力电源，高渗透率接入的新能源将深刻改变传统电力系统的形态、特性和机理，新型电力系统将呈现高比例新能源与高比例电力电子特性，将呈现低转动惯量、宽频域振荡等新的动态特征，系统的频率稳定问题也会变得更加复杂。目前构筑于以传统同步发电机为主体之上的系统运行控制理论与技术，难以满足新型电力系统安全运行要求，系统基础理论、分析方法、控制技术亟需全面变革与突破。
[0003]传统方法以经典机电理论和数学模型为基础，动作时间常数大，系统分析方法建立在慢速系统机电特性基础上，但是弱惯性的新型电力系统由于电力电子设备的控制作用，动作时间常数小，频域分布广，难以建立精确数学模型，给电力系统分析方法带来困难。
[0004]传统方法中系统稳定性分析和计算以物理模型和时域仿真为基础，通过求解代数或微分方程数值解，分析稳定机理，但是新型电力系统由于海量电力电子化设备接入、运行方式多变，导致基于物理模型的求解面临维数灾难，给电力系统稳定计算带来困难。
[0005](1)传统的控制方法如PID，模糊逻辑控制和模型预测控制需要复杂的数学模型，然而，专家的专业知识，这些经验和知识是很难获得的；(2)通过粒子群优化、遗传算法和神经网络优化的最优跟踪曲线网络算法通常只对特定周期有效，缺乏在线学习能力和有限的泛化能力；(3)经典的强化学习方

【技术保护点】

【技术特征摘要】
1.一种深度强化学习与PI控制结合的负荷频率控制方法，其特征在于，包括以下步骤：S1、构建深度强化学习控制器，包括Actor网络、Critic网络、Actor目标网络和Critic目标网络，初始化Actor网络和Critic网络的参数，将Actor网络和Critic网络的参数分别赋予Actor目标网络和Critic目标网络；S2、电力系统将频率信息通过信号处理器处理为频率变化量、频率变化率、频率变化总量，将频率变化量、频率变化率、频率变化总量作为当前状态的状态信号分别输入Actor网络和Actor目标网络；S3、Actor网络根据策略选取一个动作，将该动作作为深度强化学习控制器的动作信号，分别输入电力系统和Critic网络，电力系统进入更新状态，根据状态信号计算当前状态的奖励信息，并分别输入Actor网络和Actor目标网络；S4、通过Critic网络更新当前状态的状态价值，并计算当前状态该动作的动作价值，计算Actor网络的梯度并更新Actor网络的参数，计算Crtic网络的误差，计算Crtic网络的梯度并更新Crtic网络的参数；S5、分别比较Actor网络和Actor目标网络的参数、以及Critic网络和Critic目标网络的参数是否相同，如果参数相同，则停止训练，如果参数不同，则继续通过频率信息对深度强化学习控制器进行训练；S6、将PI控制器和训练完成后的深度强化学习控制器一同接入电力系统，将电力系统的频率变化量与设置的切换频率常数相比较，根据两者的比较结果选取控制器，对电力系统的发电机调速器进行控制。2.根据权利要求1的深度强化学习与PI控制结合的负荷频率控制方法，其特征在于，奖励信息的计算方法为：其中，r
t
为当前状态的奖励，r
t
‑1为上一个状态的奖励，Δf为系统的频率变化量，为系统的频率变化率，k1为体现对频率变化量重视程度的常数，k2为对频率变化率重视程度的常数。3.根据权利要求2的深度强化学习与PI控制结合的负荷频率控制方法，其特征在于，当前状态的状态价值的更新方法为：V(s
t
)＝V(s
t
)+α[r
t+1
+γV(s
t+1
)
‑
V(s
t
)]其中，V(s
t
)为当前状态的状态价值，r
...

【专利技术属性】
技术研发人员：龙云，赵宏伟，张扬，卢有飞，梁雪青，刘璐豪，陈明辉，吴任博，张少凡，邹时容，蔡燕春，刘璇，张冠宇，
申请(专利权)人：广东电网有限责任公司广州供电局，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人