基于近端策略优化算法的光储充电站运行优化方法及系统技术方案

技术编号:37299820 阅读:21 留言:0更新日期:2023-04-21 22:45
本发明专利技术提供一种基于近端策略优化算法的光储充电站运行优化方法及系统,属于电动汽车充电站能量调度运行技术领域,在站内光伏发电功率及负荷变动数据的基础上,建立以站内运行成本最小为目标的一体站经济运行优化模型。通过将相关数据输入至目标网络,采用近端策略优化算法获得相应决策动作,从而实现对站内储能系统出力的优化控制。本发明专利技术中,通过设计基于强化学习算法的一体站经济运行控制策略,有效解决了含有可再生能源发电及用户负荷需求随机波动等不确定性因素的优化决策问题。在完整优化周期内相关数据的基础上,优化充电站内储能系统的运行出力情况,使动作决策更加逼近最优策略。此项发明专利技术可广泛应用于光储充一体化电站的运行控制领域。站的运行控制领域。站的运行控制领域。

【技术实现步骤摘要】
基于近端策略优化算法的光储充电站运行优化方法及系统


[0001]本专利技术涉及电动汽车充电站能量调度运行
,具体涉及一种基于近端策略优化算法的光储充电站经济运行优化方法及系统。

技术介绍

[0002]近几年,光伏

储能联合应用的模式得到迅速发展。通过将光伏和储能有机的结合,可以充分发挥其各自的优势。由于光伏发电受外界环境影响较大,出力呈现一定的波动性,因此配置储能系统可进一步加强对电动汽车充电负荷的就地补偿效果,通过管理储能电池的充放电行为实现能量在时间和空间上平移,缓解电网在高峰时段的供电压力,达到平稳配电网负荷波动、减缓配电网扩容压力、提高配电网运行经济性的目的。可见,基于光储充一体化的电动汽车充电站不仅可以实现光伏资源的就地消纳,减少充电站与配网简单连接对配电网造成的冲击影响,同时还提高了可再生能源的渗透率,实现电动汽车充电站与可再生能源的衔接,是应对能源互联网战略的重要举措。
[0003]针对光储充一体化电站的优化调度问题,现有的研究方法多聚焦于传统的数学优化建模方式。例如已有研究提出一种计及光储快充一体站的配电网日前优化调度方法,通过储能的有功和无功优化决策,从而改善充电负荷大规模接入带来的运行问题。针对孤岛式光储充电站的经济调度问题,已有研究建立了基于Stackelberg博弈的双层优化调度模型。
[0004]综合考虑一体化电站内多能源的协调互补问题属于复杂的非线性混合整数规划问题,求解难度大,且新能源的可控性需求与随机特性,大幅度增加了该问题的计算负担与求解难度,因此,基于数据驱动的强化学习方式受到了大家的广泛关注。已有研究提出了基于深度学习的无模型方法来确定现实场景中的最优调度策略,该方法以电价和电池荷电状态作为输入量,并输出实时充电/放电计划,从而达到经济高效的优化目标并满足用户的驾驶需求。
[0005]上述现有技术中的一体化电站运行调度方法的缺点为:这些方法中,优化模型多以充电站的收益最大为目标进行构建,然而针对光储充放一体站,在考虑站内经济运行的同时,仍需进一步考虑新能源的就地消纳问题。且现阶段的优化运行调度方法多集中于日前调度,因此局限于固定的调度计划,不能动态的对源、荷的随机变化做出响应。同时,现有的优化运行模型多基于传统数学优化建模,该方法仍依赖于对可再生能源和负荷的精确预测。

技术实现思路

[0006]本专利技术的目的在于提供一种基于近端策略优化算法的光储充电站经济运行优化方法及系统,以解决上述
技术介绍
中存在的至少一项技术问题。
[0007]为了实现上述目的,本专利技术采取了如下技术方案:
[0008]一方面,本专利技术提供一种基于近端策略优化算法的光储充电站经济运行优化方
法,包括:
[0009]获取实时的光储充一体站的数据信息;
[0010]利用预先训练好的运行优化模型,对获取的光储充一体站的数据信息进行处理,得到光储充一体站的最优运行出力决策;其中,将光储充一体站的历史数据信息作为训练集,采用近端策略优化算法进行所述运行优化模型的训练,获得相应决策动作;其中,训练运行优化模型的目标函数为最小化电站运行成本,运行成本包括从电网购电的成本和电储能的充放电折旧成本;约束条件包括电功率平衡约束、主电网交互功率约束、储能设备运行约束、储能荷电状态约束。
[0011]优选的,采用近端策略优化算法进行所述运行优化模型的训练,获得相应决策动作,包括:
[0012]由状态空间S、动作空间A、状态转移概率P和回报函数R构成的四元组数据{S、A、P、R},作为训练和学习的基础数据;在Actor

Critic架构下融入动态步长机制和重要性采样技术进行安全约束经济调度决策网络训练学习,通过优势函数的剪切机制限制新旧策略之间的距离,利用梯度更新机制,在奖励函数引导下寻找最优调度策略作为最终的相应决策动作。
[0013]优选的,安全约束经济调度决策网络的训练包括样本产生与提取、价值网络训练和策略网络训练三部分;
[0014]在s
t
=[S
load,t
,S
pv,t
,S
soc,t
‑1]的驱动下,基于神经网络的前向传播计算公式,生成一体站内储能系统的实际出力功率a
t
=[a
BES,t
];构造动作向量的多元正态概率分布函数以形成调度策略π,由多元正态概率分布函数抽样获得训练最终的调度计划;基于当前时刻下的经济调度成本计算奖励函数r
t
;生成下一时刻的状态向量s
t+1
,得到训练样本序列<s
t
,a
t
,r
t
,s
t+1
>。
[0015]优选的,在价值网络训练中,首先从样本池中提取样本序列<s
t
,a
t
,r
t
,s
t+1
>,将状态向量s
t
=[S
load,t
,S
pv,t
,S
soc,t
‑1]输入价值网络,通过前向传播机制计算当前状态s
t
下的价值函数V
μ
(s
t
);通过下式构造价值网络损失函数,对价值网络进行梯度更新:
[0016]式中,η
μ
为价值网络的学习率,为价值网络损失函数L
v
(μ)关于参数μ的梯度,L
v
(μ)可由下式计算:
[0017][0018]式中,E(.)为期望函数,V
μ
(s
t
)为当前价值函数,即价值网络的输出。用以评估价值网络输出准确性的目标价值函数;
[0019]基于时序差分算法,推导的计算公式如下:
[0020][0021]优选的,将优势函数引入策略训练网络:
[0022][0023]Q
μ
(s,a)=E(R
t
|s
t
=s,a
t
=a;π)
[0024]V
μ
(s)=E(R
t
|s
t
=s;π)
[0025]式中,Q
μ
(s,a)表示动作价值函数,V
μ
(s)表示当前状态下按照策略π执行运行计划所得运行成本的期望;
[0026]优势函数表示当前运行计划相对平均运行计划的优劣;当表明该次运行计划优于平均运行计划,提高该次计划被选择的概率,反之则降低该次计划的概率。
[0027]优选的,将新旧两个策略的采样概率之比融入到步长的设置中,得到策略网络的动态学习率η
θ

[0028][0029]式中,η
θ.base
为策略网络的基准学习率,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于近端策略优化算法的光储充电站经济运行优化方法,其特征在于,包括:获取实时的光储充一体站的数据信息;利用预先训练好的运行优化模型,对获取的光储充一体站的数据信息进行处理,得到光储充一体站的最优运行出力决策;其中,将光储充一体站的历史数据信息作为训练集,采用近端策略优化算法进行所述运行优化模型的训练,获得相应决策动作;其中,训练运行优化模型的目标函数为最小化电站运行成本,运行成本包括从电网购电的成本和电储能的充放电折旧成本;约束条件包括电功率平衡约束、主电网交互功率约束、储能设备运行约束、储能荷电状态约束。2.根据权利要求1所述的基于近端策略优化算法的光储充电站经济运行优化方法,其特征在于,采用近端策略优化算法进行所述运行优化模型的训练,获得相应决策动作,包括:由状态空间S、动作空间A、状态转移概率P和回报函数R构成的四元组数据{S、A、P、R},作为训练和学习的基础数据;在Actor

Critic架构下融入动态步长机制和重要性采样技术进行安全约束经济调度决策网络训练学习,通过优势函数的剪切机制限制新旧策略之间的距离,利用梯度更新机制,在奖励函数引导下寻找最优调度策略作为最终的相应决策动作。3.根据权利要求2所述的基于近端策略优化算法的光储充电站经济运行优化方法,其特征在于,安全约束经济调度决策网络的训练包括样本产生与提取、价值网络训练和策略网络训练三部分;在s
t
=[S
load,t
,S
pv,t
,S
soc,t
‑1]的驱动下,基于神经网络的前向传播计算公式,生成一体站内储能系统的实际出力功率a
t
=[a
BES,t
];构造动作向量的多元正态概率分布函数以形成调度策略π,由多元正态概率分布函数抽样获得训练最终的调度计划;基于当前时刻下的经济调度成本计算奖励函数r
t
;生成下一时刻的状态向量s
t+1
,得到训练样本序列<s
t
,a
t
,r
t
,s
t+1
>。4.根据权利要求3所述的基于近端策略优化算法的光储充电站经济运行优化方法,其特征在于,在价值网络训练中,首先从样本池中提取样本序列<s
t
,a
t
,r
t
,s
t+1
>,将状态向量s
t
=[S
load,t
,S
pv,t
,S
soc,t
‑1]输入价值网络,通过前向传播机制计算当前状态s
t
下的价值函数V
μ
(s
t
);通过下式构造价值网络损失函数,对价值网络进行梯度更新:μ=μ

η
μ

L
v
(μ);式中,η
μ
为价值网络的学习率,

L
v
(μ)为价值网络损失函数L
v
(μ)关于参数μ的梯度,L
v
(μ)可由下式计算:式中,E(.)为期望函数,V
μ
(s...

【专利技术属性】
技术研发人员:许寅段玉戈刘曌孙庆凯王希豪王小君和敬涵王颖
申请(专利权)人:北京交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1