深度强化学习与PI控制结合的负荷频率控制方法技术

技术编号:35933373 阅读:16 留言:0更新日期:2022-12-14 10:19
本发明专利技术公开了一种深度强化学习与PI控制结合的负荷频率控制方法,包括以下步骤:S1、构建深度强化学习控制器,包括Actor网络、Critic网络、Actor目标网络和Critic目标网络;S2、将频率信息通过信号处理器处理为状态信号并分别输入Actor网络和Actor目标网络;S3、Actor网络根据策略选取一个动作,输入电力系统和Critic网络,计算奖励信息并分别输入Actor网络和Actor目标网络;S4、更新状态价值,计算动作价值,计算Crtic网络的误差,计算Crtic网络的梯度,计算Actor网络的梯度;S5、比较Actor网络和Actor目标网络的参数、以及Critic网络和Critic目标网络的参数是否相同,判断是否继续训练;S6、将PI控制器和深度强化学习控制器接入电力系统,将频率变化量与设定值相比较,选取控制器对发电机调速器进行控制。取控制器对发电机调速器进行控制。取控制器对发电机调速器进行控制。

【技术实现步骤摘要】
深度强化学习与PI控制结合的负荷频率控制方法


[0001]本专利技术属于新型电力
,具体涉及一种深度强化学习与PI控制结合的负荷频率控制方法。

技术介绍

[0002]新型电力系统中新能源将成为主力电源,高渗透率接入的新能源将深刻改变传统电力系统的形态、特性和机理,新型电力系统将呈现高比例新能源与高比例电力电子特性,将呈现低转动惯量、宽频域振荡等新的动态特征,系统的频率稳定问题也会变得更加复杂。目前构筑于以传统同步发电机为主体之上的系统运行控制理论与技术,难以满足新型电力系统安全运行要求,系统基础理论、分析方法、控制技术亟需全面变革与突破。
[0003]传统方法以经典机电理论和数学模型为基础,动作时间常数大,系统分析方法建立在慢速系统机电特性基础上,但是弱惯性的新型电力系统由于电力电子设备的控制作用,动作时间常数小,频域分布广,难以建立精确数学模型,给电力系统分析方法带来困难。
[0004]传统方法中系统稳定性分析和计算以物理模型和时域仿真为基础,通过求解代数或微分方程数值解,分析稳定机理,但是新型电力系统由于海量电力电子化设备接入、运行方式多变,导致基于物理模型的求解面临维数灾难,给电力系统稳定计算带来困难。
[0005](1)传统的控制方法如PID,模糊逻辑控制和模型预测控制需要复杂的数学模型,然而,专家的专业知识,这些经验和知识是很难获得的;(2)通过粒子群优化、遗传算法和神经网络优化的最优跟踪曲线网络算法通常只对特定周期有效,缺乏在线学习能力和有限的泛化能力;(3)经典的强化学习方法如Q

learning容易出现维度灾难问题,泛化能力不强,通常只对特定任务有用。

技术实现思路

[0006]本专利技术的目的在于解决现有技术由于海量电力电子化设备和新能源接入、运行方式多变,导致基于物理模型的求解面临维数灾难,给电力频率稳定控制带来困难的问题,提供一种深度强化学习与PI控制结合的负荷频率控制方法,通过人工智能和传统PI控制相结合,可以达到较优的频率控制效果。
[0007]为了实现上述目的,本专利技术所采用的技术方案如下:
[0008]一种深度强化学习与PI控制结合的负荷频率控制方法,包括以下步骤:
[0009]S1、构建深度强化学习控制器,包括Actor网络、Critic网络、Actor目标网络和Critic目标网络,初始化Actor网络和Critic网络的参数,将Actor网络和Critic网络的参数分别赋予Actor目标网络和Critic目标网络;
[0010]S2、电力系统将频率信息通过信号处理器处理为频率变化量、频率变化率、频率变化总量,将频率变化量、频率变化率、频率变化总量作为当前状态的状态信号分别输入Actor网络和Actor目标网络;
[0011]S3、Actor网络根据策略选取一个动作,将该动作作为深度强化学习控制器的动作
信号,分别输入电力系统和Critic网络,电力系统进入更新状态,根据状态信号计算当前状态的奖励信息,并分别输入Actor网络和Actor目标网络;
[0012]S4、通过Critic网络更新当前状态的状态价值,并计算当前状态该动作的动作价值,计算Actor网络的梯度并更新Actor网络的参数,计算Crtic网络的误差,计算Crtic网络的梯度并更新Crtic网络的参数;
[0013]S5、分别比较Actor网络和Actor目标网络的参数、以及Critic网络和Critic目标网络的参数是否相同,如果参数相同,则停止训练,如果参数不同,则继续通过频率信息对深度强化学习控制器进行训练;
[0014]S6、将PI控制器和训练完成后的深度强化学习控制器一同接入电力系统,将电力系统的频率变化量与设置的切换频率常数相比较,根据两者的比较结果选取控制器,对电力系统的发电机调速器进行控制。
[0015]进一步地,奖励信息的计算方法为:
[0016][0017]其中,r
t
为当前状态的奖励,r
t
‑1为上一个状态的奖励,Δf为系统的频率变化量,为系统的频率变化率,k1为体现对频率变化量重视程度的常数,k2为对频率变化率重视程度的常数。
[0018]奖励函数包括三项,第一项r
t
‑1为之前的奖励,后两项之和为这一步获得的奖励,这样可以将所有的奖励的信息累加起来,综合评价控制器控制效果的好坏。
[0019]其中,第二项

k1Δf2为对频率变化量的考量,频率变化量越大,这步得到的负奖励就越大,考虑了电力系统本身的特性,允许在一定频率范围内波动,而对频率越限坚决不能容忍,因此采用平方项,当频率变化量较小时,这个量可以忽略不计。第三项为对频率变化率的考量,希望避免出现低频振荡的情况。综上所述,巧妙的奖励函数设计能够更好的反映控制器控制效果的好坏,并用于深度强化学习中。
[0020]进一步地,当前状态的状态价值的更新方法为:
[0021]V(s
t
)=V(s
t
)+α[r
t+1
+γV(s
t+1
)

V(s
t
)][0022]其中,V(s
t
)为当前状态的状态价值,r
t+1
为下一个状态的奖励,γ为折扣率,V(s
t+1
)为下一个状态的状态价值,α为学习率。
[0023]当前状态的价值V(s
t
)一开始为估测值,其并非真实值,通过不断的训练,通过之后的价值对其进行修正,能够得到更准确的状态价值。
[0024]进一步地,动作价值的计算方法为:
[0025]Q(s,a)=r+γV(s
t+1
)
[0026]其中,Q(s,a)为s状态下动作a的动作价值,r为执行当前动作a得到的奖励。
[0027]动作价值Q(s,a)一开始为估测值,其并非真实值,通过不断的训练,通过之后的价值对其进行修正,能够得到更准确的动作价值。
[0028]进一步地,Actor网络的梯度的计算方法为:
[0029][0030]其中,为Actor网络的梯度,N为随机选取用于计算的相邻的状态数,为对Actor网络求关于动作a的梯度,Q(s,a∣
Q
)为根据Crtic网络的参数Q计算出的s状态下动作a的动作价值,s
i
为第i个状态,a为根据策略μ选择的动作,为对策略μ求关于θ的梯度,μ(s∣
μ
)为选择动作的策略。
[0031]通过求取Actor网络的梯度采用梯度下降的方法,能够根据该梯度找到Actor网络的参数μ的更新方向,能够快速完成Actor网络的参数μ的更新。
[0032]进一步地,Crtic网络的误差的计算方法为:
[0033]TD

error=r+γV'(s
t+1
...

【技术保护点】

【技术特征摘要】
1.一种深度强化学习与PI控制结合的负荷频率控制方法,其特征在于,包括以下步骤:S1、构建深度强化学习控制器,包括Actor网络、Critic网络、Actor目标网络和Critic目标网络,初始化Actor网络和Critic网络的参数,将Actor网络和Critic网络的参数分别赋予Actor目标网络和Critic目标网络;S2、电力系统将频率信息通过信号处理器处理为频率变化量、频率变化率、频率变化总量,将频率变化量、频率变化率、频率变化总量作为当前状态的状态信号分别输入Actor网络和Actor目标网络;S3、Actor网络根据策略选取一个动作,将该动作作为深度强化学习控制器的动作信号,分别输入电力系统和Critic网络,电力系统进入更新状态,根据状态信号计算当前状态的奖励信息,并分别输入Actor网络和Actor目标网络;S4、通过Critic网络更新当前状态的状态价值,并计算当前状态该动作的动作价值,计算Actor网络的梯度并更新Actor网络的参数,计算Crtic网络的误差,计算Crtic网络的梯度并更新Crtic网络的参数;S5、分别比较Actor网络和Actor目标网络的参数、以及Critic网络和Critic目标网络的参数是否相同,如果参数相同,则停止训练,如果参数不同,则继续通过频率信息对深度强化学习控制器进行训练;S6、将PI控制器和训练完成后的深度强化学习控制器一同接入电力系统,将电力系统的频率变化量与设置的切换频率常数相比较,根据两者的比较结果选取控制器,对电力系统的发电机调速器进行控制。2.根据权利要求1的深度强化学习与PI控制结合的负荷频率控制方法,其特征在于,奖励信息的计算方法为:其中,r
t
为当前状态的奖励,r
t
‑1为上一个状态的奖励,Δf为系统的频率变化量,为系统的频率变化率,k1为体现对频率变化量重视程度的常数,k2为对频率变化率重视程度的常数。3.根据权利要求2的深度强化学习与PI控制结合的负荷频率控制方法,其特征在于,当前状态的状态价值的更新方法为:V(s
t
)=V(s
t
)+α[r
t+1
+γV(s
t+1
)

V(s
t
)]其中,V(s
t
)为当前状态的状态价值,r
...

【专利技术属性】
技术研发人员:龙云赵宏伟张扬卢有飞梁雪青刘璐豪陈明辉吴任博张少凡邹时容蔡燕春刘璇张冠宇
申请(专利权)人:广东电网有限责任公司广州供电局
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1