【技术实现步骤摘要】
一种基于深度强化学习算法的配电网电压调节方法
本专利技术属于电力系统自动化
,涉及一种基于深度强化学习算法的配电网电压调节方法。
技术介绍
随着配网中清洁能源渗透率的不断提高,其强波动性和高不确定性对配网安全经济运行的影响不断加剧。当大量可再生分布式发电(RenewableDistributedGeneration,RDG)接入配电网时,其出力的波动性同时也会对配电网的电压运行水平带来不利影响,甚至会使电压越限。根据配网有功-无功不解耦的特性可知,控制配网有功功率的平衡可快速有效地改善系统电压分布。除了在清洁能源并网点处安装分布式储能外,还可于配网末端配置主要用于系统调压的储能系统,通过多点分布式储能形成规模化汇聚效应,积极有效地面向电网应用,进而改善系统电压运行水平。同时随着储能技术的发展以及其成本的迅速下降,利用储能系统辅助系统调压已逐步成为除传统无功调压方法外的又一种可行的技术手段。近年来机器学习快速发展,其强大的感知学习能力和数据分析能力契合了智能电网中大数据应用的需求。其中强化学习(Reinf ...
【技术保护点】
1.一种基于深度强化学习算法的配电网电压调节方法,其特征在于,包括以下步骤:/nS1:搭建多隐层Q网络模型,其输入为状态s的特征向量,输出对应于每一个动作集合A中a
【技术特征摘要】
1.一种基于深度强化学习算法的配电网电压调节方法,其特征在于,包括以下步骤:
S1:搭建多隐层Q网络模型,其输入为状态s的特征向量,输出对应于每一个动作集合A中at的动作价值q,同时初始化Q网络的所有参数θ并清空经验回放集合D;
S2:建立BESS的马尔科夫决策过程,将BESS充放电行为映射为基于动作价值迭代更新的强化学习过程,确定算法控制目标、环境状态特征以及即时奖励;
S3:给出系统各节点负载水平按历史平均值,RDG并网点处按其各自平均历史出力输入,由此计算出配网潮流分布以及各节点电压目标标幺值向量;
S4:初始化迭代轮数T、每次迭代的计算步长step,从1到T开始进行迭代;
S5:在Q网络中使用st作为输入,得到所有动作对应的Q值输出;采用ε贪婪法在当前Q值输出中选择一个对应的动作at,在状态st执行当前动作at,得到新状态特征向量st+1和奖励rt,并判断本次迭代是否为终止状态;
S6:将st、at、rt、st+1和终止判定指标依次存放入经验回放数据集D中,当数据达到一定数量时开始从D中连续采样m个样本,计算当前目标Q值,通过梯度反向传播来更新Q网络的所有超参数,同时令当前状态s=st+1,若s为终止状态则当前轮迭代完毕,或达到迭代轮数T则结束全部迭代,否则转到步骤S5继续进行迭代。
2.根据权利要求1所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,所述步骤S1的具体方法如下:
BESS通过不断感知负荷需求与可再生能源波动的配电系统环境,并在控制目标下与环境进行交互得到反馈奖励;构建深度Q神经网络,以BESS的荷电状态、RDG预测出力和负荷水平组成状态特征向量st作为Q网络输入,输出最优离散化充放电动作价值Qt,并最终通过回放集数据进行网络训练来迭代收敛;
搭建双隐层架构并确定各隐层节点数目,激活函数选取ReLu函数来加速收敛过程;正态初始化层间权重ω,初始化偏置b都为趋于0的常数;确定经验回放集合D的容量大小,并清空D进行存储备用;
当感知到环境状态的变化后,agent将控制BESS反馈相应的动作a(t),将BESS的动作Pbe按其范围划分为K个离散的充放电选择,从而均匀离散化动作空间A:
式中,A为所有可能动作组成的集合;Pbe(k)表示BESS均匀离散动作空间中的第k个充电/放电动作。
3.根据权利要求1所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,所述步骤S2的具体方法如下:
储能充电递推关系为:
SoC(t)=(1-σsdr)·SoC(t-1)+Pbe·(1-Lc)Δt/Ecap
储能放电过程表示如下:
SoC(t)=(1-σsdr)·SoC(t-1)-PbeΔt/[Ecap·(1-Ldc)]
式中:SoC(t)为BESS在t时段的荷电状态;Pbe(t)为BESS在t时段的充放电功率;σsdr为储能介质的自放电率;Lc和Ldc分别为BESS的充电和放电损耗;△t为每个计算窗口时长;
BESS在t时刻的最大允许充放电功率由其自身的充放电特性和t时刻的剩余荷电状态所决定,同时运行过程中满足约束:
SoCmin≤SoC(t)≤SoCmax
式中:SoCmax和SoCmin分别为BESS荷电状态约束的上、下限;
RL利用马尔科夫决策过程来简化其建模,将MDP定义为一个四元组,所述四元组为:S,A,r,f,其中:S为所有环境状态的集合,st∈S表示agent在t时刻所处的状态;A为agent可执行动作的集合,at∈A表示agent在t时刻所采取的动作;r为奖赏函数,rt~r(st,at)表示agent在状态st执行动作at获得的立即奖赏值;f为状态转移概率分布函数,st+1~f(st,at)表示agent在在状态st执行动作at转移到下一状态st+1的概率;马尔科夫模型的目标是在初始化状态s后,找到一种最大化预期奖励总和的最优计划策略
式中,Eπ表示在策略π下对价值的期望;0<γ<1是强化学习中表征未来奖励重要程度的一个衰减系数。
4.根据权利要求3所述的基于深度强化学习算法的配电网电压调节方法,其特征在于,利用DQN进行改进求解,映射关系如下:
(1)控制目标
利用储能的灵活充放特性来改善所在配电区域的电压静态稳定性,其控制目标为:
1)使系统节点电压平均波动最小化;
2)使系统薄弱节点电压波动最小化;
3)储能需保留后备容量用于系统后续调压,即吸收系统电能余量或者补充电能缺额;使BESS最大化地保存能量以用于平抑下一时刻的功率波动;
min|SoC(t)-SoC0|
式中,N为配电网总节点个数;Vi(t)为节点i在t时刻的静态电压标幺值,在RDG实际出力和实际负...
【专利技术属性】
技术研发人员:史景坚,周文涛,张宁,陈桥,籍宁,曹振博,陈懿,孟凡晨,
申请(专利权)人:国网北京市电力公司,国家电网有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。