【技术实现步骤摘要】
一种基于元强化学习算法的光伏逆变器协同控制方法
[0001]本专利技术涉及一种基于元强化学习算法的光伏逆变器协同控制方法。
技术介绍
[0002]以化石能源为主的能源结构正逐步向可再生清洁能源为主的能源结构转型。太阳能光伏发电是目前最具大规模应用前景的可再生清洁能源发电方式之一。然而,随着光伏渗透率在配电网中的持续增加,现有的传统电压管理体系已逐步显得力不从心。近年来,由高光伏渗透率诱发的诸如过电压故障、剧烈电压波动等一系列问题时有发生。
[0003]为了应对日益升高的光伏渗透率带来的配电网电压管理挑战,修订版的IEEE1547标准首次允许分布式小容量光伏逆变器以调节无功功率输出的方式参与配电网的电压管理。然而,为了优化网络结构以及降低配电网的线路损耗,配电网会通过重构的方式改变其拓扑结构,进而改变了原有的潮流方程和数学模型。在缺乏有效协同机制的情况下,遵循相同协同控制策略的光伏逆变器集群在不同的配电网拓扑结构中运行极有可能产生不良的交互影响。其结果是,电压控制效果相互抵消,过电压及电压剧烈波动无法消除,同时调压设备 ...
【技术保护点】
【技术特征摘要】
1.一种基于元强化学习算法的光伏逆变器协同控制方法,包括以下步骤:S1:建立基于配电网电压控制考虑配电网重构的马尔可夫决策模型;根据配电网电压管理的数学模型,确定马尔可夫决策过程的状态;根据光伏逆变器的工作原理和特性,确定马尔可夫决策过程的动作;根据配电网电压管理的目标,确定马尔科夫决策过程的奖励函数;根据不同的配电网拓扑结构,建立马尔可夫决策过程的集合;根据马尔可夫决策过程的状态转移概率,建立动作价值函数和价值函数;S2:建立元强化学习实时控制算法,即在标准的深度强化学习算法SAC中引入元学习;SAC是基于演员
‑
评论家架构的深度强化学习算法;其中,演员负责在每步动作中提供最优动作策略π,其本质是对于特定的状态,产生特定的动作概率分布;评论家用于判定演员动作的优劣程度;元强化学习应用在考虑配电网重构的配电网电压管理的基本假设,适用于元强化学习训练的任务和元强化学习测试的任务服从同一任务分布,即:元强化学习训练的任务和元强化学习测试的任务服从同一任务分布,即:其中,表示任务,即特定的配电网拓扑结构;表示训练用的任务集合,即用来训练参数的配电网拓扑结构的集合;表示测试用的任务集合,即用来检验训练效果的配电网拓扑结构的集合;表示任务的概率分布;元强化学习的目标可以总结成如下公式:其中为智能体神经网络的参数;θ为智能体神经网络中循环神经网络的状态;表示损失函数;f表示智能体的学习策略;S3:建立训练流程,训练元强化学习算法的流程如下所示;S31:初始化评论家网络演员网络价值函数和其中θ,ψ,分别为网络的参数;初始化目标价值网络的参数;初始化经验池R;S32:从训练任务分布中抽取任务确定配电网的拓扑结构;进行智能体和环境的交互,将数据存储进经验池;S33:从经验池中小批量抽取数据更新评论家网络、价值函数网络、策略网络、目标价值函数的参数;S4:将训练完备的元强化学习算法应用于考虑配电网重构的配电网电压管理任务中。2.如权利要求1所述的一种基于元强化学习算法的光伏逆变器协同控制方法,其特征在于:所述步骤S1中,马尔可夫决策模型的构建包括以下过程:S1
‑
1:建立状态;智能体通过观察到的状态采取动作并根据动作作用后导致的下一个状态计算奖励函数,所以状态必须尽可能包含所有的信息;在t时刻的状态S
t
用下式表示:其中,表示t时刻各个节点的有功负荷;表示t时刻各个节点的无功负荷;表示t时刻所有光伏发电的有功输出;V
t
表示t时刻各个节点的电压幅值;S1
‑
2:建立动作;通过调整光伏逆变器输出的无功功率维持配电网电压稳定和优化线
路损耗,动作为各个逆变器输出的无功值,用下式表示:其中,表示t时刻所有光伏逆变器输出的无功功率值;由于光伏逆变器输出的无功功率受到光伏逆变器本身的容量影响,所以智能体动作的上下限分别为和S1
‑
3:设置目标和奖励函数;逆变器控制的目标是维持配电网电压的稳定和优化网络损耗;如果配电网存在电压越限,按照(6)式来计算奖励函数;如果不存在电压越限,按照(7)式来计算奖励函数:(7)式来计算奖励函数:其中,M为小于0的常数,用于对电压越限的动作作出惩罚;和V分别为电压的上限和下限,此处化为标幺值,分别为1.05和0.95;V
tj
表示在t时刻第j个节点的电压;为配电网所有节点的集合;λ为大于0的常数,用于对减少配电网线路损耗的动作作出奖励;为t时刻无逆变器注入无功的配电网线路损耗;表示t时刻经逆变器注入无功功率以后配电网的线路损耗;S1
‑
4:建立马尔可夫决策过程的集合;对于一个特定的马尔可夫决策过程,t+1时刻的状态和t时刻获取的奖励完全取决于t时刻的状态以及t时刻采取的动作,和t时刻之前所有的状态无关;即满足下式关系:(S
t+1
,R
t
)~ρ(
·
|S
t
,A
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(8)对于配电网重构的物理背景,每一次重构会使系统的潮流方程发生改变,即每一次重构会使系统的状态转移概率发生改变;所以每一种配电网拓扑结构对应一个特定的马尔可夫决策过程,将配电网训练时所有可能的拓扑结构的概率分布记作每次训练时从中随机抽取一组拓扑结构进行N个回合的训练,将这一过程称作一次试验;训练过程总共需要进行M次试验;S1
‑
5:建立价值函数;为了权衡长远利益和短期利益,引入价值函数和动作价值函数,分别定义如下:分别定义如下:其中s
t
表示随机t时刻具体的状态,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。