【技术实现步骤摘要】
基于深度强化学习的微电网能源系统的多目标安全优化方法
[0001]本专利技术属于电力系统自动化的
,具体的说是涉及一种基于深度强化学习的微电网能源系统的多目标安全优化方法。
技术介绍
[0002]随着电网技术不断进步,微电网逐渐成为复杂的独立系统,与大电网的主要差别在于,其既可以作为独立的系统运行,也可以接入大电网协同运行。
[0003]ZL2021109555161公开了一种基于自动强化学习多时段预测的孤立微电网优化调度方法,首先提出了先进的预测模型PER
‑
AutoRL,并设计了基于PER
‑
AutoRL的多时段单步预测方法,此外还考虑了预测误差对预测精度的影响,根据预测误差分布修正预测值且确定旋转备用容量,然后将该预测方法与调度相结合,构建了以最小化微电网总运行成本为目标,考虑需求响应的调度模型,最后通过SOT将调度模型转化为混合整数线性规划问题并应用CPLEX求解器求解模型,得到全局最优解,有效的解决了新能源出力及负荷不确定性对微电网日前调度的影响,通过提高预测精度大 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的微电网能源系统的多目标安全优化方法,其特征在于:所述安全优化方法包括如下步骤:步骤1:建立基于深度强化学习的微电网能源系统的多目标优化模型;步骤2:根据基于分解的多目标进化算法(MOEAD),将步骤1中的多目标优化模型通过预设一组在目标空间均匀分布的权重向量分解成一组标量子问题,从而建立起以经济性和环保性为目标的多目标安全优化模型,当权重向量生成后,根据权重向量间的欧几里得距离为每个子问题分配N个邻居,即每个粒子与邻近的N个粒子构成该粒子的子种群,每个子问题的优化通过基于惩罚的边界交集法(PBI)的替换策略在其子种群中进行优化;步骤3:在多目标进化算法(MOEAD)的基础上,运用强化学习中深度确定性策略梯度算法(DDPG)对PBI中惩罚因子θ进行训练,将子问题周围解的浓度定义为状态,将惩罚因子θ值的变化定义为动作,当前状态,经允许的动作策略,就能够得出下一个状态和反馈,并组成一个经验元组,再将状态经不同动作策略下得出的经验元组共同组成深度强化学习中DDPG算法学习所需的经验池;步骤4:利用步骤3获得的经验池中的数据,通过DDPG算法中的神经网络,通过在线学习训练出神经网络中的相关权重,从而找出最优的惩罚因子θ,提高了PBI算法的聚合效率,最终通过PSO算法优化子种群推动解逼近真实的帕累托前沿。2.根据权利要求1所述基于深度强化学习的微电网能源系统的多目标安全优化方法,其特征在于:步骤1中的基于深度强化学习的微电网能源系统的多目标安全优化模型为:多目标:其中:
①
燃料成本S
f
(t)S
fi
(P
it
)为第i个微电源在第t个调度时段的燃料成本;N为微电源的个数。
②
运行维护成本S
om
(t)K
om,i
为第i个微电源的运行维护成本系数;P
it
为第i个微电源第t个调度时段的有功出力;
③
停电补偿成本S
L
(t)
S
L
(t)=S
bu
(t)
×
P
Lt
S
bu
为微电网系统所有者向用户支付的单位停电量的补偿费用;P
Lt
为微电网第t个调度时段的切负荷量;
④
与大电网的电能交互成本S
g
(t)S
g
(t)=S
gt
(t)
×
P
gt
S
gt
为微电网在第t个调度时段的购售电电价;P
gt
为第t个调度时段大电网对微电网的注入功率;
⑤
CHP系统的制热收益S
s
S
s
=Q
ht
×
K
ph
S
s
为微型燃气轮机第t个调度时段内的制热收益;Q
ht
为第t个调度时段内的热负荷需求;K
ph
为单位热能的售价;F2为微电网并网运行时未来一日的环保成本,α
im
为第i个微电源生产单位电能时污染物m的排放量,α
gm
为大电网向微电网输送单位电能时大电网内火电机组对污染物m的排放量,F3为微电网运行时第t个调度时段的负荷缺电率,作为供电可靠性的衡量指标...
【专利技术属性】
技术研发人员:张慧峰,强程鹏,岳东,窦春霞,张安华,
申请(专利权)人:南京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。