一种基于联邦强化学习算法的输配调频资源协同控制方法技术

技术编号:37470724 阅读:10 留言:0更新日期:2023-05-06 09:51
一种基于联邦强化学习算法的输配调频资源协同控制方法,包括:将区域电网划分为一个主网片区和多个配网片区;在每个片区的调度中心设置一个智能体,为每个智能体建立一个对应的DQN神经网络模型;各智能体使用相应片区的数据对对应的DQN神经网络模型进行本地训练,对本地训练后的DQN神经网络模型的信息进行加密,并将加密信息上传聚合中心;聚合中心对加密信息进行梯度平均处理并回送给各智能体,各智能体利用梯度平均处理后的信息对本地训练后的DQN神经网络模型进行后续训练得到训练好的DQN神经网络模型,通过训练好的DQN神经网络模型获取区域电网中接受调度的每个机组的调频指令。本设计能保证区域电网安全高效运行和调频用户隐私安全。调频用户隐私安全。调频用户隐私安全。

【技术实现步骤摘要】
一种基于联邦强化学习算法的输配调频资源协同控制方法


[0001]本专利技术属于电力系统自动发电控制控制领域,具体为一种基于联邦强化学习算法的输配调频资源协同控制方法。

技术介绍

[0002]自动功率控制(automatic power control,APC)是在传统发电机组基础上继续向可调节负荷侧的延伸,涵盖了原有的发电机组AGC技术内涵,也肯定了灵活性资源的调频能力。而这些灵活性资源大多数通过配网侧接入,加之通信等技术的发展,配电网由原来的单向受电网,逐渐变成具有自我平衡能力的局域电网,主

配电网之间的关系也由原来的主从依附关系,转变为互相支持的双向互动关系。传统调频资源火电、水电大多接入主网侧,该侧电网的拓扑相对于配网结构简单,而分布式电源大多接入配网侧,其接受调度后进行功率的增发或减少,对配电网的运行影响不可忽略,这是由于配电网的主要职能始终是为用户提供可靠的电能。在此背景下,如何联合这些电源特性和所属环境不同的资源共同参与APC是探究新型电力系统发展的一个难题。
[0003]目前的区域电网APC闭环控制过程主要分为2个过程:1)采集电网的频率偏差和联络线功率偏差,计算出实时的区域控制偏差ACE,通过PI控制器得到一个总发电功率指令;2)再利用相关功率分配方法将该指令分配到各个APC机组。目前,对于总调节功率指令主要根据机组可调容量来进行分配,但该策略无法满足系统最优控制需求。同时传统集中控制计算量大、通信集中、可靠性差、无法适应结构灵活多变的有源配电网结构,因此对系统的控制模式逐渐由集中控制向分布式控制转变,但由于分布式电源分散特性较大,对每个调频机组安装智能体进行分布式控制难以实现自治区域的整体优化。另外,分布式电源数量增加导致主体多元化趋势加剧,多主体隐私性也面临威胁。基于分布式控制现存的问题,需要一种灵活的功率最优分配策略来保证区域电网安全高效运行和调频用户隐私安全。

技术实现思路

[0004]本专利技术的目的是克服现有技术中存在的现有的控制方法难以满足系统最优控制需求、无法适应结构灵活多变的有源配电网结构,且调频用户隐私安全面临威胁的问题,提供了一种能够满足系统最优控制需求,适应结构灵活多变的有源配电网结构,保证区域电网安全高效运行和调频用户隐私安全的基于联邦强化学习算法的输配调频资源协同控制方法。
[0005]为实现以上目的,本专利技术的技术解决方案是:
[0006]一种基于联邦强化学习算法的输配调频资源协同控制方法,所述控制方法包括如下步骤:
[0007]S1、将区域电网划分为一个主网片区和多个配网片区;
[0008]S2、在每个片区的调度中心设置一个智能体,为每个智能体建立一个对应的DQN神经网络模型;
[0009]S3、各智能体分别使用相应片区的局部数据对对应的DQN神经网络模型进行本地训练,对本地训练后的DQN神经网络模型的信息进行同态加密,并将经过加密的信息上传聚合中心;
[0010]S4、聚合中心对所有经过加密的信息进行梯度平均处理,并将梯度平均处理后的信息发送给各智能体,各智能体接收梯度平均处理后的信息,并根据梯度平均处理后的信息对对应的本地训练后的DQN神经网络模型进行后续训练,得到训练好的DQN神经网络模型,通过训练好的DQN神经网络模型获取接受调度的每个机组的调频指令。
[0011]所述步骤S3中,各智能体分别使用相应片区的局部数据对DQN神经网络模型进行本地训练时,根据马尔可夫决策过程设置每个智能体状态空间、动作空间及奖励函数;
[0012]设置z号智能体的状态空间具体包括:
[0013]将频率分配过程中决定频率响应总偏差的总频率调节指令的大小作为z号智能体的状态空间;
[0014]则z号智能体在t时刻的状态为S
z,t

[0015]设置z号智能体的动作空间具体包括:
[0016]设置z号智能体可决策的动作空间A
z
,z号智能体的所有控制行为均从动作空间A
z
中选取;
[0017]z号智能体在t时刻的控制行为a
z,t
可表示为:
[0018][0019]式(1)中:为z号智能体控制的第o台火电机组在t时刻的有功出力;为z号智能体控制的第m台储能设备在t时刻的有功出力;为z号智能体控制的第n台风电机组在t时刻的有功出力;为z号智能体控制的第j个电动汽车群在t时刻的有功出力;
[0020]设置z号智能体的奖励函数具体包括:
[0021]设置环境对z号智能体的控制行为的奖励,以最小化调节功率指令值和功率响应值的偏差为目标,构造z号智能体的奖励函数:
[0022][0023][0024]式(2)

(3)中,R
z,t
为z号智能体在t时刻的奖励函数;Q为控制时段数量;q为z号智能体所对应的片区内的APC机组数量;i为z号智能体所对应的片区内的第i个APC机组;t为第t个离散控制周期;

P
iG
为z号智能体所对应的片区内的第i个APC机组的输入调节功率指令值;

P
iR
为z号智能体所对应的片区内的第i个APC机组的功率响应值;
[0025]通过折扣累计求和得到针对目标函数minF的价值函数:
[0026][0027]式(4)中,为对控制行为a
z
产生的所有累积奖励取均值;γ
t'
∈[0,1],γ
t'

折扣系数;R
z,t'
为z号智能体的多个连续行为所对应的奖励函数的累积。
[0028]所述步骤S3中,z号智能体使用相应片区的局部数据对对应的DQN神经网络模型进行本地训练具体包括:
[0029]S31、z号智能体初始化对应的DQN神经网络模型的当前网络参数,并复制一个结构相同的目标网络;
[0030]S32、z号智能体以对应片区的日内96个时间段的状态数据对DQN神经网络模型进行训练,并对目标网络的参数进行更新。
[0031]所述步骤S32中,z号智能体以对应片区的日内96个时间段的状态数据对DQN神经网络模型进行训练包括:
[0032]S321、在日内96个时间段的状态数据中选取一个时间段的状态数据作为z号智能体的当前状态s
t

[0033]S322、基于z号智能体的当前状态s
t
,采用ε

贪婪策略进行试错,即以概率ε使用随机策略选取控制行为a
t
、以概率1

ε选取当前最优控制行为a
t

[0034]其中:
[0035]S323、根据所选取的控制行为a,DQN神经网络模型中的当前网络计算出执行该控制行为a后的奖励函数大小r
t
,并通过下列函数计算出Q值:
[0036]Q本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于联邦强化学习算法的输配调频资源协同控制方法,其特征在于:所述控制方法包括如下步骤:S1、将区域电网划分为一个主网片区和多个配网片区;S2、在每个片区的调度中心设置一个智能体,为每个智能体建立一个对应的DQN神经网络模型;S3、各智能体分别使用相应片区的局部数据对对应的DQN神经网络模型进行本地训练,对本地训练后的DQN神经网络模型的信息进行同态加密,并将经过加密的信息上传聚合中心;S4、聚合中心对所有经过加密的信息进行梯度平均处理,并将梯度平均处理后的信息发送给各智能体,各智能体接收梯度平均处理后的信息,并根据梯度平均处理后的信息对对应的本地训练后的DQN神经网络模型进行后续训练,得到训练好的DQN神经网络模型,通过训练好的DQN神经网络模型获取接受调度的每个机组的调频指令。2.根据权利要求1所述的一种基于联邦强化学习算法的输配调频资源协同控制方法,其特征在于:所述步骤S3中,各智能体分别使用相应片区的局部数据对DQN神经网络模型进行本地训练时,根据马尔可夫决策过程设置每个智能体状态空间、动作空间及奖励函数;设置z号智能体的状态空间具体包括:将频率分配过程中决定频率响应总偏差的总频率调节指令的大小作为z号智能体的状态空间;则z号智能体在t时刻的状态为S
z,t
;设置z号智能体的动作空间具体包括:设置z号智能体可决策的动作空间A
z
,z号智能体的所有控制行为均从动作空间A
z
中选取;z号智能体在t时刻的控制行为a
z,t
可表示为:式(1)中:为z号智能体控制的第o台火电机组在t时刻的有功出力;为z号智能体控制的第m台储能设备在t时刻的有功出力;为z号智能体控制的第n台风电机组在t时刻的有功出力;为z号智能体控制的第j个电动汽车群在t时刻的有功出力;设置z号智能体的奖励函数具体包括:设置环境对z号智能体的控制行为的奖励,以最小化调节功率指令值和功率响应值的偏差为目标,构造z号智能体的奖励函数:偏差为目标,构造z号智能体的奖励函数:式(2)

(3)中,R
z,t
为z号智能体在t时刻的奖励函数;Q为控制时段数量;q为z号智能体所对应的片区内的APC机组数量;i为z号智能体所对应的片区内的第i个APC机组;t为第t个
离散控制周期;

P
iG
为z号智能体所对应的片区内的第i个APC机组的输入调节功率指令值;

P
iR
为z号智能体所对应的片区内的第i个APC机组的功率响应值;通过折扣累计求和得到针对目标函数minF的价值函数:式(4)中,为对控制行为a
z
产生的所有累积奖励取均值;γ
t

∈[0,1],γ
t

为折扣系数;R
z,t'
为z号智能体的多个连续行为所对应的奖励函数的累积。3.根据权利要求2所述的一种基于联邦强化学习算法的输配调频资源协同控制方法,其特征在于:所述步骤S3中,z号智能体使用相应片区的局部数据对对应的DQN神经网络模型进行本地训练具体包括:S31、z号智能体初始化对应的DQN神经网络模型的当前网络参数,并复制一个与当前网络结构相同的目标网络;S32、z号智能体以对应片区的日内96个时间段的状态数据对DQN神经网络模型进行训练,并对目标网络的参数进行更新。4.根据权利要求3所述的一种基于联邦强化学习算法的输配调频资源协同控制方法,其特征在于:所述步骤S32中,z号智能体以对应片区的日内96个时间段的状态数据对DQN神经网络模型进行训练包括:S321、在日内96个时间段的状态数据中选取一个时间段的状态数据作为z号智能体的当前状态s
t
;S322、基于z号智能体的当前状态s
t
,采用ε

贪婪策略进行试错,即以概率ε使用随机策略选取控制行为a
t
、以概率1

ε选取当前最优控制行为a
t
、其中:S323、根据所选取的控制行为a,计算出执行该控制行为a后的奖励函数大小r
t
,并通过下列函数计算出Q值:Q(s
t
,a
t
)=Q(s
t
,a
t
)+η[r
t
+μmaxQ(s
t+1
,a
t+1
)

Q(s
t
,a
t
)]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6);式(5)、(6)中,Q(s
t
,a
t
)为当前网络Q值;maxQ(s
t+1
,a
t+1
)为目标网络Q值;η为学习率;μ为奖励衰减系数;S324、根据所选取的控制行为a,获取z号智能体执行所选取控制行为a后环境所返回的下一状态s
t+1
,得到经验样本(s
t
,a,r
t
,s
t+1
),并将经验样本(s
t
,a,r
t
,s
t+1
)存储到经验回放池中;S325、将z号智能体的当前状态更新为环境所返回的下一状态,并重复步骤S322

S324,直到经验回放池存满;S326、经验回放池存满后,从经验回放池提取Ω个经验样本进行计算,并对损失函数进行更新:
式(7)中:F
z
为损失函数;r
i,z
为z号智能体的奖励函数;Q(s

【专利技术属性】
技术研发人员:陈然许汉平周蠡蔡杰贺兰菲周英博李吕满张赵阳廖晓红熊一孙利平熊川羽
申请(专利权)人:国网湖北省电力有限公司经济技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1