一种融合Q学习与势博弈的多微电网系统协调控制方法技术方案

技术编号:35791088 阅读:52 留言:0更新日期:2022-12-01 14:40
一种融合Q学习与势博弈的多微电网系统协调控制方法,属于微电网协调控制技术领域,解决如何以微电网收益最大化和微电网间出力平衡为目标实现多微电网协调控制问题,基于多微电网分布式协调架构和势博弈优化策略,构建了融合强化学习与势博弈的多微电网系统协调控制方法。充分利用势博弈的分布式特性,将每个微电网视为一个智能体,采用分布式协调控制结构,以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型,然后以强化学习的Q学习算法为载体,以参数传递的方法将势博弈和强化学习算法进行融合,从而得到最优纳什均衡解,以提高寻优性能,提高多微电网系统经济性,实现系统整体和系统内个体的利益平衡。利益平衡。利益平衡。

【技术实现步骤摘要】
一种融合Q学习与势博弈的多微电网系统协调控制方法


[0001]本专利技术属于微电网协调控制
,涉及一种融合Q学习与势博弈的多微电网系统协调控制方法。

技术介绍

[0002]随着可再生能源技术的迅速发展及分布式能源在配电网中的大范围高渗透,单一微电网系统逐渐向多微电网系统转型。多微电网不仅具有更高可靠性,还能够有效提高可再生能源就地消纳能力,但因其规模大、复杂性高、投资主体多样化,传统集中式控制方法难以满足其控制需求,且系统整体利益及系统内个体利益难以达到平衡,参见文献《A multiagent

based hierarchical energy management strategy for multi

microgrids considering adjustable power and demand response》(V.H.Bui,etc.,IEEE Transactions on Smart Grid 9.2(2018):1323

1333);因此,亟需研究一种有效协调整体与个体间经济关系,提高系统经济性的多微电网分布式协调控制方法。
[0003]强化学习主要是通过智能体与环境进行交互从而不断改善自身行为,智能体选择动作作用于环境,得到环境奖励或惩罚的反馈,并根据反馈及环境变化选择下一个动作,有利于目标的动作被保留,不利于目标的动作被删减。Q学习算法是强化学习中一种基于值函数迭代的离线控制算法,原理是利用包含先前经验的Q值表作为后续迭代计算的初始值,从而缩短算法的收敛时间。势博弈(Potential game,PG)是非合作博弈的一个子类,于1996年由Monderer和Shapely首次提出。它将个体收益的变化映射到势函数中,当个体通过调整策略使得自己的收益增加时,势函数的值也同步增加,借助求解势函数最大值或极大值,可间接求得纳什均衡解。势博弈具有分布式特性,适合求解分布式优化问题,且拥有有限改进特性(finite improvement properties,FIP),每个有限势博弈必有纯策略纳什均衡,因此势博弈在算法复杂度和计算量方面有着很大的优势。
[0004]现有技术中,多微电网系统协调博弈优化多采用传统的主从博弈、库诺寡头博弈等方法。例如文献《Economic optimization method of multi

stakeholder in a multi

microgrid system based on Stackelberg game theory》(Q.Wu,etc.,Energy Reports 8(2022):345

351)提出了一种基于Stackelberg博弈的微电网系统能源管理优化方法;以及文献《Cournot oligopoly game

based local energy trading considering renewable energy uncertainty costs》(Y.J.Zhang,etc.,Renewable Energy 159.3(2020):1117

1127)将库诺寡头博弈用于电力市场,以改善发电公司和海关之间的交易或平衡多个供应之间的利润;但是上述这些方法都存在难以契合分布式优化控制方法或纳什均衡求解过程复杂等问题。文献《A Potential Game Approach to Distributed Operational Optimization for Microgrid Energy Management with Renewable Energy and Demand Response》(J.Zeng,etc.,IEEE Transactions on Industrial Electronics 66.6(2019):4479

4489)将势博弈用于微电网能源管理系统的全分布式运行优化,但是该方法在博弈参与者较多、策略集合较大时,求解计算量仍然很大,算法求解效果仍有待提高。文献《基于多
主体博弈与强化学习的并网型综合能源微网协调调度》(刘洪等,智能电网教育部重点实验室,天津大学,2019年1月),针对传统集中式优化调度方法难以全面反映综合能源微电网内不同智能体的利益诉求,以及人工智能技术在综合能源调度方面的应用亟待进一步挖掘等问题,提出了基于多主体博弈与强化学习的并网型综合能源微电网协调调度模型和方法;但是该文献解决的技术问题是:以多智能体间利益均衡为目标实现微电网协调调度;该文献采用的技术方案为:基于联合博弈方法建立多主体博弈协调调度模型后,先筛选出满足纳什均衡的状态动作值,然后再采用纳什Q学习算法进行迭代计算,求解出最优纳什均衡,其中筛选纳什均衡值的过程比较复杂,计算量较大。

技术实现思路

[0005]本专利技术所要解决的技术问题在于如何以微电网收益最大化和微电网间出力平衡为目标实现多微电网协调控制。
[0006]本专利技术是通过以下技术方案解决上述技术问题的:
[0007]一种融合Q学习与势博弈的多微电网系统协调控制方法,包括以下步骤:
[0008]S1、构建多微电网分布式博弈架构下的微电网出力收益最大化和出力平衡的目标优化决策模型,并设定功率平衡约束条件以及微电网出力约束条件;
[0009]S2、对目标优化决策进行线性加权处理得到局部支付函数,进而设计满足势方程的全局势函数和局部效用函数,确立势博弈策略集,构建具有分布式特性的势博弈模型;
[0010]S3、以参数传递的方式将势博弈控制与Q学习算法进行融合,对势博弈模型进行求解,得到博弈优化结果并进行分析。
[0011]本专利技术的技术方案基于多微电网分布式协调架构和势博弈优化,构建了融合强化学习与势博弈的多微电网系统协调控制方法,充分利用势博弈的分布式特性,将每个微电网视为一个智能体,采用分布式协调控制结构,以最大限度提高和平衡单微电网和整体多微电网系统的经济性为目的建立势博弈模型,然后以强化学习Q学习算法为载体,以参数传递的方法将势博弈和强化学习算法进行融合,从而得到最优纳什均衡解,以提高寻优性能,实现了微电网收益最大化和微电网间出力平衡的双重目标,提高了多微电网系统经济性,实现系统整体和系统内个体的利益平衡;无需对状态动作值进行筛选处理,将博弈效用函数值传递给奖励值,直接代入Q学习迭代公式计算出纳什均衡并判断是否为最优纳什均衡,进一步减少计算复杂度。
[0012]进一步地,步骤S1中所述的优化决策模型的构建方法如下:
[0013]1)最大化微电网出力收益的净收益为:
[0014]maxF
1,i
=(ρ

m
i
)P
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0015]其中,F
1,i
为本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,包括以下步骤:S1、构建多微电网分布式博弈架构下的微电网出力收益最大化和出力平衡的目标优化决策模型,并设定功率平衡约束条件以及微电网出力约束条件;S2、对目标优化决策进行线性加权处理得到局部支付函数,进而设计满足势方程的全局势函数和局部效用函数,确立势博弈策略集,构建具有分布式特性的势博弈模型;S3、以参数传递的方式将势博弈控制与Q学习算法进行融合,对势博弈模型进行求解,得到博弈优化结果并进行分析。2.根据权利要求1所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S1中所述的优化决策模型的构建方法如下:1)最大化微电网出力收益的净收益为:maxF
1,i
=(ρ

m
i
)P
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,F
1,i
为微电网出力收益的净收益,P
i
为多微电网系统中的微电网i的出力,ρ为单位电价,m
i
为微电网i出力成本系数;2)最小化多微电网系统中的各微电网与邻居微电网之间的功率差额,以平衡各微电网出力,其目标函数为:其中,F
2,i
为微电网i与其邻居微电网j之间的功率差额,I
i
为微电网i的邻居集,P
j
为微电网i的邻居微电网j的出力。3.根据权利要求2所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S1中所述的功率平衡约束条件以及微电网出力约束条件具体如下:其中,P
load
为多微电网系统的总负荷,N为势博弈参与者集合,P
i,max
为微电网i的额定容量;n
MG
为多微电网系统中微电网的数量。4.根据权利要求3所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S2中所述的线性加权处理的方法为:其中,F
i
(P
i
,P

i
)为微电网i的局部支付函数,P

i
为多微电网系统中为除微电网i以外的其他微电网出力,λ1和λ2分别为不同目标函数的加权系数。5.根据权利要求4所述的一种融合Q学习与势博弈的多微电网系统协调控制方法,其特征在于,步骤S2中所述的全局势函数φ的公式如下:所述的局部效用函数的公式如下:
其中,U
i
(P
i
,P

i
)为局部效用函数,F
j
(P
i
,P

i
)为微电网i的邻居微电网j的局部支付函数。6.根据权利要求5所述...

【专利技术属性】
技术研发人员:柳伟张思聪
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1