一种光伏逆变器的无功优化控制方法技术

技术编号：41071551 阅读：12 留言：0更新日期：2024-04-24 11:27

本发明专利技术公开了一种光伏逆变器的无功优化控制方法，应用于中心化部署的配电网主站，方法包括：基于配电网，构建对应的分布式部分可观测马尔可夫决策过程模型；在配电网主站中，基于价值分解多智能体深度强化学习算法，训练分布式部分可观测马尔可夫决策过程模型，以得到对应于光伏逆变器数量的策略网络；将策略网络依次下发至分布式部署的光伏逆变器对应的边缘计算装置，以使边缘计算装置基于对应的光伏逆变器采集的所在区域内的节点特征信息和配置的策略网络输出对应的控制动作，控制动作用于调节光伏逆变器的无功功率，以将节点电压稳定于基准值附近。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及光伏电站运行控制，尤其涉及一种光伏逆变器的无功优化控制方法。

技术介绍

1、随着“3060”双碳战略目标的提出，光伏等可再生能源得到了大力发展，其中分布式光伏接入配电网是其主要形式之一。大量分布式光伏的接入，使得配网潮流发生逆向流动，导致节点电压越限，线路损耗增加。光伏出力的随机性，也造成电压频繁波动，电能质量下降，无法满足电网的稳定运行和用户的可靠供电。然而，随着电力电子技术的发展，光伏逆变器可以输出连续可调的无功功率，能够优化潮流分布，平抑电压波动，降低网络损耗，为配电网提供了灵活的调度手段。配电网也逐渐由被动受控模式，转变为具有主动调控能力的智能系统，因此光伏逆变器无功优化策略已成为当下研究热点。

2、解决光伏逆变器无功优化问题的主要方法，包括传统数学优化方法和深度强化学习方法。传统数学优化方法需要依赖于精确的物理模型和网络参数，而配电网的感知度往往较低，无法获取完成的拓扑参数。并且数学优化问题的复杂度会随着配电网规模的增大而急剧增长，求解速度较慢，难以实现在线决策；深度强化学习方法主要为多智能体深度确定性策略梯度算法(multi-agent deep deterministic policy gradient,maddpg)。然而maddpg算法存在信用分配、过度泛化等问题，在面对复杂多变的配电网环境时，学习能力有限，控制效果欠佳。

3、例如，中国专利cn202310199515.8公开了一种基于多目标多智能体深度强化学习的配电网重构决策方法。其正是利用了如前所述的maddpg算法来

技术实现思路

1、本专利技术主要解决现有的技术中利用maddpg算法来进行控制时存在的信用分配、过度泛化等问题；提供一种光伏逆变器的无功优化控制方法。

2、本专利技术的上述技术问题主要是通过下述技术方案得以解决的：一种光伏逆变器的无功优化控制方法，应用于中心化部署的配电网主站，包括：

3、基于配电网，构建对应的分布式部分可观测马尔可夫决策过程模型；

4、在所述配电网主站中，基于价值分解多智能体深度强化学习算法，训练所述分布式部分可观测马尔可夫决策过程模型，以得到对应于光伏逆变器数量的策略网络；

5、将所述策略网络依次下发至所述分布式部署的光伏逆变器对应的边缘计算装置，以使所述边缘计算装置基于对应的光伏逆变器采集的所在区域内的节点特征信息和配置的策略网络输出对应的控制动作，所述控制动作用于调节所述光伏逆变器的无功功率，以将所述节点电压稳定于基准值附近。

6、作为优选，所述部分可观测马尔可夫决策过程模型包括以(s,o,a,r,k,γ)表示的六元组，其中，所述s用于表征状态，所述o用于表征观测，所述a用于表征动作，所述r用于表征奖励，所述k用于表征状态转移，所述γ用于表征折扣率。

7、作为优选，在所述配电网中共有m个节点和n台光伏继电器的情况下，m用于表征节点索引，n用于表征光伏索引；在总控制周期为t的情况下，t用于表征时刻索引；每台光伏逆变器设备均被视为配电网环境中的独立智能体；上标n用于表征所述智能体的个体变量；其中，

8、所述状态为st＝{ftm|m＝1,…,m}，以表示所有节点特征量ftm的集合，所述依次表示为当前时刻的负荷有功功率、负荷无功功率、光伏有功功率、上一时刻的光伏逆变器无功功率、电压幅值以及电压相角；

9、所述观测为以表示各智能体的局部观测组成的联合观测，单个所述智能体用于观测所在区域内的节点特征量，所述局部观测为mn用于表示智能体n所在区域的节点集合；

10、所述动作为以表示各所述智能体的个体动作组成的联合动作，所述智能体n的动作为当前时刻光伏逆变器输出的无功功率

11、所述奖励为用于表征节点m在t时刻的电压幅值，u0用于表征电压基准值，ploss,t用于表征t时刻的系统总功率损耗，α用于表征协调因子；

12、所述状态转移为在当前时刻环境状态st下，所述光伏逆变器根据自身策略网络做出无功补偿动作at，使得电网潮流重新分布，节点电压和网络损耗发生变化，光伏有功出力和负荷需求产生随机波动，从而转移到下一时刻状态st+1。

13、作为优选，训练过程包括n个网络参数为θn的策略网络μn，n个个体价值网络νn和一个混合网络网络参数分别为ωn,χ；以及每个网络对应的目标网络μn-,νn-,网络参数分别为θn-,ωn-,χ-；所述基于价值分解多智能体深度强化学习算法，训练所述分布式部分可观测马尔可夫决策过程模型，包括：

14、采用行为策略进行探索，以得到多条经验；

15、采用经验回放从所述多条经验中抽取样本；

16、根据时间差分算法更新所述个体价值网络和所述混合网络参数；

17、根据集中式策略梯度算法更新所述策略网络参数；

18、根据软更新算法更新所述目标网络参数。

19、作为优选，所述采用行为策略进行探索，以得到多条经验，包括：

20、根据所述智能体n从当前t时刻配电网的状态st中，获取的区域mn对应的局部观测以及当前策略网络μn输出的基础上加上随机噪声ξ，得到动作

21、基于所有智能体的观测和动作组成联合观测ot和联合动作at，执行动作at，以得到相应的全局奖励rt，在根据光伏有功出力和负荷需求产生随机波动的变化，转移到下一时刻状态st+1，并获取联合观测ot+1，以经历一次所述马尔可夫决策过程得到一条所述经验，并存入经验回放数组中；其中，所述经验包括以(st,ot,at,rt,st+1,ot+1)表示的六元组。

22、作为优选，所述采用经验回放从所述多条经验中抽取样本，包括：

23、根据蒙特卡洛算法，从所述经验回放数组中随机抽取小批量样本，以用样本均值代替期望，并更新神经网络的参数；其中，在抽取样本的批量大小为b的情况下，第b条样本表示为(sb,ob,ab,rb,s′b,o′b)，上标'用于表示下一时刻的变量。

24、作为优选，所述根据时间差分算法更新所述个体价值网络和所述混合网络参数，包括：

25、根据样本b中的下一时刻观测利用目标网络μn-,νn-,计算下一时刻的动作个体价值和全局价值以得到时间差分目标

26、将样本b中的动作输入到个体价值网络νn和混合网络中，得到当前时刻的个体价值和全局价值qb；

27、根据时间差分目标计算时间差分目标λb；

28、根据所有样本的时间差分目标，利用梯度下降和链式法则更新个体价值网络νn的参数ωn，以及混合网络的参数χ。

29、作为优选，所述根据集中式策略梯度算法更新所述策略网络参数，包括：

30、根据当前策略网络μn，计算每个智能体的最新动作

31、通过个体价值网络νn和混本文档来自技高网...

【技术保护点】

1.一种光伏逆变器的无功优化控制方法，其特征在于，应用于中心化部署的配电网主站，所述方法包括：

2.根据权利要求1所述的一种光伏逆变器的无功优化控制方法，其特征在于，所述部分可观测马尔可夫决策过程模型包括以(s,o,a,r,K,γ)表示的六元组，其中，所述s用于表征状态，所述o用于表征观测，所述a用于表征动作，所述r用于表征奖励，所述K用于表征状态转移，所述γ用于表征折扣率。

3.根据权利要求2所述的一种光伏逆变器的无功优化控制方法，其特征在于，在所述配电网中共有M个节点和N台光伏继电器的情况下，m用于表征节点索引，n用于表征光伏索引；在总控制周期为T的情况下，t用于表征时刻索引；每台光伏逆变器设备均被视为配电网环境中的独立智能体；上标n用于表征所述智能体的个体变量；其中，

4.根据权利要求1所述的一种光伏逆变器的无功优化控制方法，其特征在于，训练过程包括N个网络参数为θn的策略网络μn，N个个体价值网络νn和一个混合网络网络参数分别为ωn,χ；以及每个网络对应的目标网络网络参数分别为θn-,ωn-,χ-；所述基于价值分解多智能体深度强化学习算

5.根据权利要求4所述的一种光伏逆变器的无功优化控制方法，其特征在于，所述采用行为策略进行探索，以得到多条经验，包括：

6.根据权利要求5所述的一种光伏逆变器的无功优化控制方法，其特征在于，所述采用经验回放从所述多条经验中抽取样本，包括：

7.根据权利要求6所述的一种光伏逆变器的无功优化控制方法，其特征在于，所述根据时间差分算法更新所述个体价值网络和所述混合网络参数，包括：

8.根据权利要求7所述的一种光伏逆变器的无功优化控制方法，其特征在于，所述根据集中式策略梯度算法更新所述策略网络参数，包括：

9.根据权利要求8所述的一种光伏逆变器的无功优化控制方法，其特征在于，所述根据软更新算法更新所述目标网络参数，包括：

10.根据权利要求1所述的一种光伏逆变器的无功优化控制方法，其特征在于，所述控制动作由所述边缘计算装置依靠自身策略网络的前馈运算所确定。

...

【技术特征摘要】

1.一种光伏逆变器的无功优化控制方法，其特征在于，应用于中心化部署的配电网主站，所述方法包括：

2.根据权利要求1所述的一种光伏逆变器的无功优化控制方法，其特征在于，所述部分可观测马尔可夫决策过程模型包括以(s,o,a,r,k,γ)表示的六元组，其中，所述s用于表征状态，所述o用于表征观测，所述a用于表征动作，所述r用于表征奖励，所述k用于表征状态转移，所述γ用于表征折扣率。

3.根据权利要求2所述的一种光伏逆变器的无功优化控制方法，其特征在于，在所述配电网中共有m个节点和n台光伏继电器的情况下，m用于表征节点索引，n用于表征光伏索引；在总控制周期为t的情况下，t用于表征时刻索引；每台光伏逆变器设备均被视为配电网环境中的独立智能体；上标n用于表征所述智能体的个体变量；其中，

4.根据权利要求1所述的一种光伏逆变器的无功优化控制方法，其特征在于，训练过程包括n个网络参数为θn的策略网络μn，n个个体价值网络νn和一个混合网络网络参数分别为ωn,χ；以及每个网络对应的目标网络网络参数分别为θn-,...

【专利技术属性】
技术研发人员：刘硕，郭创新，李付存，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人