【技术实现步骤摘要】
一种基于多智能体强化学习的多微网系统协同优化方法
[0001]本专利技术涉及微电网的运行、仿真、分析与调度的
,尤其涉及一种基于多智能体强化学习的多微网系统协同优化方法。
技术介绍
[0002]随着微电网技术的发展,多个微电网接入同一个配电网区域,构成了多微网系统。充分挖掘多微网间源储荷所具有的时空互补特性,实现多微网系统内能量互补,是目前微网发展的一种新趋势。相较于单微网运行优化,多微网的运行优化更为复杂:其一在于,微网内部能量流动具有多向性、多种能量在不同时间和空间层面有不同调度需求,多微网间的协同面临更多的影响因素及不确定性;其二则是,微网个体的自趋利性导致参与多微网系统协同的前提是最大化自身的利益,需兼顾个体与集群的效益。
[0003]从已有的研究来看,对于多微网系统的能量管理,传统多采用集中式优化,从整体的角度建立多微网系统的优化经济调度模型(徐青山,李淋,蔡霁霖,等.考虑电能交互的冷热电多微网系统日前优化经济调度[J].电力系统自动化,2018,42(21):36
‑
44.)。这忽 ...
【技术保护点】
【技术特征摘要】
1.一种基于多智能体强化学习的多微网系统协同优化方法,其特征在于,包括以下步骤:分别建立微网中各设备的数学模型,这些模型用于描述各设备的工作原理;建立多微网协同优化宏观模型来描述微网之间的博弈关系,包括构建微网的目标函数以及多微网系统运行的约束条件;采用改进的Nash
‑
Q学习算法来求解纳什均衡,其中,Nash
‑
Q学习算法的改进包括:采用深度神经网络来拟合Nash
‑
Q学习算法中的价值函数,离线训练时从存储在经验池中的多个微网与环境交互得到的状态转移样本中随机抽取样本进行训练,且建立用于评估当前状态动作对的价值函数的当前值网络和用于评估目标状态动作对价值函数目标值网络,在离线训练时只更新当前值网络的参数,目标值网络参数保持不变,但每隔预设次数迭代后将各个微网的当前值网络参数复制给相应的目标值网络;将当前时刻的状态信息输入到当前值网络即可得到纳什Q值,再通过迭代搜索法即可得到纳什均衡动作。2.根据权利要求1所述的一种基于多智能体强化学习的多微网系统协同优化方法,其特征在于,微网内部存在冷、热、电三种用户负荷,其设备包括燃气轮机、余热回收锅炉、燃气锅炉、换热装置、电制冷机、蓄电池、风机和光伏电池。3.根据权利要求1所述的一种基于多智能体强化学习的多微网系统协同优化方法,其特征在于,对于单个微网,它的优化目标是最小化优化周期的运行成本,而运行成本表达式如下:式中:T为一天划分的时段数;C
i
为微网i的日运行成本,C
OM,i
(t)为t时段微网i的设备运行维护成本、C
NG,i
(t)为t时段微网i的购买天然气成本、C
MG,i
(t)为t时段微网i与其它微网的交互成本、C
g,i
(t)为t时段微网i与电网的交互成本;且在纳什均衡处,微网i运行成本满足:式中:a
i
表示微网i的策略,分别表示微网i的纳什均衡策略以及除微网i外其他微网的纳什均衡策略组合。4.根据权利要求1所述的一种基于多智能体强化学习的多微网系统协同优化方法,其特征在于,多微网系统运行的约束条件包括各设备的局部约束、微网内部的冷热电能量平衡约束和微网之间的电能交互量平衡约束。5.根据权利要求4所述的一种基于多智能体强化学习的多微网系统协同优化方法,其特征在于,微网内部的冷热电能量平衡约束包括电力总线能量平衡约束、热力总线能量平衡约束和冷却总线能量平衡约束,其中:电力总线能量平衡约束为:
热力总线能量平衡约束为:Q
GB,i
(t)+Q
HX,i
(t)=L
h,i
(t)冷却总线能量平衡约束为:P
EC,i
(t)η
EC
=L
c,i
(t)式中:P
GT,i
(t)为t时段微网i的燃气轮机的发电功率,P
B,i
(t)为t时段微网i的蓄电池的功率,P
g,i
(t)为微网i与电网的交互电功率,正值表示购电,负值表示售电,P
PV,i
(t)为t时段微网i的光伏发电功率,P
WT,i
(t)为t时段微网i的风机发电功率,L
e,i
(t)为t时段微网i的电负荷,P
EC,i
(t)为t时段微网i的电制冷机消耗的电功率,Q
GB,i
(t)为t时段微网i的燃气锅炉的输出热功率,Q
HX,i
(t)为t时段微网i的换热装置的输出热功率,P
ij
(t)为t时段微网i与微网j的实际交互电功率,正值表示购电,负值表示售电,η
EC
为电制冷机的性能系数,L
h,i
(t)为t时段微网i的热负荷,L
c,i
(t)为t时段微网i的冷负荷。6.根据权...
【专利技术属性】
技术研发人员:刘俊峰,王晓生,曾君,卢俊菠,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。