【技术实现步骤摘要】
一种基于强化学习的主动配电网有功无功联合控制方法
本专利技术属于电力系统运行和控制
,特别涉及一种基于强化学习的主动配电网有功无功联合控制方法。
技术介绍
随着可再生能源渗透率的不断提高,电压越限和网络损耗已成为阻碍主动配电网(ADN)安全和有效运行的主要问题。因此,合适地利用智能逆变器的有功、无功功率及无功补偿装置十分关键。但是在主动配电网中,有功功率和无功功率在容量和功率流中都耦合在一起。此外,由于主动配电网建设速度快,运营预算有限以及环境不断变化,复杂的主动配电网的模型难以维护,使得传统的优化算法计算精度差。因此,数据驱动的无模型的优化方法,特别是近年来发展迅速的深度强化学习方法,是电网有功无功联合控制的重要手段。
技术实现思路
本专利技术的目的是为克服已有技术的不足之处,提出一种基于强化学习的主动配电网有功无功联合控制方法。本专利技术基于主动配电网近似模型和有功无功联合优化目标,建立马尔科夫决策过程,并引入经验优先回放技术和重要性采样技术训练有功无功联合控制智能体。本专利技术充分利用近似模型 ...
【技术保护点】
1.一种基于强化学习的主动配电网有功无功联合控制方法,其特征在于,该方法首先分别建立主动配电网的近似仿真模型和有功无功联合控制的优化模型,根据该两个模型,建立基于马尔科夫过程决策的交互训练环境,通过采集各时刻主动配电网各节点有功功率、无功功率以及各节点电压的组成状态向量以及各智能逆变器的有功功率、无功功率和各无功补偿装置的无功功率构成训练样本;通过强化学习中的深度确定性策略梯度算法,并运用经验优化回放技术训练主动配电网有功无功联合控制智能体;利用训练完毕的智能体通过各时刻主动配电网的状态计算得到该时刻各智能逆变器的有功、无功功率和无功补偿装置的无功功率的优化结果,实现对主动配电网的控制。/n
【技术特征摘要】
1.一种基于强化学习的主动配电网有功无功联合控制方法,其特征在于,该方法首先分别建立主动配电网的近似仿真模型和有功无功联合控制的优化模型,根据该两个模型,建立基于马尔科夫过程决策的交互训练环境,通过采集各时刻主动配电网各节点有功功率、无功功率以及各节点电压的组成状态向量以及各智能逆变器的有功功率、无功功率和各无功补偿装置的无功功率构成训练样本;通过强化学习中的深度确定性策略梯度算法,并运用经验优化回放技术训练主动配电网有功无功联合控制智能体;利用训练完毕的智能体通过各时刻主动配电网的状态计算得到该时刻各智能逆变器的有功、无功功率和无功补偿装置的无功功率的优化结果,实现对主动配电网的控制。
2.如权利要求1所述的方法,其特征在于,该方法包括以下步骤:
1)建立主动配电网近似仿真模型,具体如下:
记主动配电网包含n+1节点,构建该主动配电网对应的无向图其中...,n为配电网的节点集合,节点0为主动配电网连接到外部电网的耦合节点;为支路集合,其中i,j分别代表支路两端的节点;
在所有n+1个节点中,有nSI个节点上的分布式电源装有智能逆变器,有nCD个节点装有无功补偿装置;
其中,所述nSI个节点与所述nCD个节点不重合,nSI+nCD≤n;
智能逆变器的有功无功可控范围和无功补偿器的无功可控范围由式(1)确定:
其中,PSIi,QSIi分别为第i台智能逆变器的有功功率和无功功率;分别为第i台智能逆变器的有功功率上限和设计容量;QCDi为第i台无功补偿装置的无功功率;分别为第i台无功补偿装置的无功功率下限和上限;为智能逆变器接入节点组成的集合;为无功补偿装置接入节点组成的集合;
主动配电网潮流方程如式(2)所示:
其中,Pij,Qij分别为支路ij的有功功率和无功功率;Pj,Qj分别为节点j的有功功率、无功功率;Vi为节点i的电压;rij,xij分别为支路ij的电阻和电抗;
2)建立主动配电网有功无功联合控制的二阶锥优化模型,表达式如下:
其中,Ploss为主动配电网的网络损耗;P0为连接到外部电网的耦合节点的有功功率;PDj为第j个分布式电源的有功功率;分别为节点i的电压下限和电压上限;lij,vi为辅助变量,
3)结合步骤1)的仿真模型和步骤2)的优化模型,建立基于马尔科夫过程MDP决策的交互训练环境;具体方法如下:
建立t时刻的马尔科夫过程状态变量,如式(6)所示:
st=(P(t),Q(t),V(t),t)(6)
其中,P(t),Q(t)分别为t时刻主动配电网各节点有功功率Pj、无功功率Qj构成的向量;V(t)为t时刻主动配电网各节点电压Vi(t)构成的向量;t代表时刻;
对于步骤2)建立的优化模型,构建t时刻的回馈变量rt如式(7)所示:
其中,Cv为电压越限惩罚系数;Vv为电压越限总量;
构建强化学习智能体t时刻动作变量at,如式(8)所示:
at=(θSI(t),ASI(t),QCD(t))(8)
其中,θSI(t)为t时刻各智能逆变器的功率因数θSIi(t)构成的向量,θSIi(t)=arctan(PSIi(t)/QSIi(t)),θSI∈[0,π];ASI(t)为t时刻各智能逆变器有功功率、无功功率的平方和ASIi(t)构成的向量,QCD(t)为t时刻各无功补偿器无功功率QCD(t)构成的向量;
基于θSI(t)和ASI(t),则t时刻各智能逆变器的有功功率和无功功率为:
4)通过强化学习中的深度确定性策略梯度DDPG算法,并运用经验优化回放技术离线训练主动配电网有功无功联合控制智能体:具体步骤如下:
4-1)在训练过程中,从主动配电网获取由各时刻的(st,at,rt,st+1)组成的MDP样本,将所有的MDP样本(st,at,rt,st+1)存储到初始为空的经验池中;分别建立策略网络μθ(s)、价值在线网络Qφ(s,a)和价值目标网络三个神经网络,其中θ,φ,分别为策略网络、价值在线网络和价值目标网络的参数;
同时训练两组价值在线网络参数φ1,φ2,并且用参数较小的价值在线网络作为当前价值目标网络并且通过设定的延迟更新参数延迟更新φi,i∈{1,2},将更新后的价值在线网络参数记为
因此,第i个价值在线网络的每个样本(st,at,rt,st+1)的时序差分定义如式(10)所示:
其中,为折扣因子,at=μθ(st),at+1=μθ(st+1);
价值目标网络根据下式(11)进行训练:
策略网络的策略π的目标为最大化状态价值函数如式(12)所示:
引入优先经验回放技术从经验池中选取时序差分绝对值最大的k个样本进行训练,具体方法如下:首先对经验池中各样本加入其对应的时序差分绝对值,将各样本更新为(...
【专利技术属性】
技术研发人员:孙广辉,王鑫明,李世辉,曹欣,贾晓卜,冯慧波,李少博,张飞飞,吴文传,刘昊天,王彬,
申请(专利权)人:国网河北省电力有限公司,国家电网有限公司,清华大学,
类型:发明
国别省市:河北;13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。