基于多智能体强化学习的多能源优化方法、系统和介质技术方案

技术编号:35687997 阅读:24 留言:0更新日期:2022-11-23 14:34
本发明专利技术公开了基于多智能体强化学习的多能源优化方法、系统和介质,获取区域能源互联网数据;根据区域能源互联网数据设置区域能源互联网环境;将多智能体深度强化学习与区域能源互联网环境进行交互训练,在交互训练过程中引入注意力机制,得到多能源协同优化运行策略。本发明专利技术通过多智能体深度强化学习和注意力机制相结合,以集中训练分布执行的模式,利用人工智能算法,保护多主体利益隐私的同时,实现区域能源互联网运行优化,进一步提高多能源利用率,从而保证能源互联网安全、稳定、高效运行。行。行。

【技术实现步骤摘要】
基于多智能体强化学习的多能源优化方法、系统和介质


[0001]本专利技术属于区域能源互联网领域,具体涉及一种基于多智能体强化学习的多能源优化方法、系统和介质。

技术介绍

[0002]区域能源互联网是电力、天然气、热力及新能源等多种能源相耦合的综合能源系统,因此区域能源互联网运行优化问题,涉及到非线性、随机性、非凸性以及多目标问题求解问题,并且由于不同的能源体系中行业壁垒的存在,导致能源数据无法完全的交互,如何在多种能源的生产、传输、存储、消费等环节,更好的消纳可再生能源,同时提高多能源利用率,确保能源互联网多能源协同优化和系统安全、稳定、高效的运行,变得至关重要。
[0003]目前,清洁可再生能源大规模发展,区域能源互联网成为解决可再生能源就地消纳问题,实现能源网络紧密融合、提高整体系统能效的必然趋势。区域能源互联网具有更强的灵活性和可靠性,因此,获取能源供需信息,并实施快速合理优化策略,是控制多能源系统生产运行和实现能源的安全高效流动的关键。
[0004]区域能源互联网优化面临多种能源和多主体利益,目前应用于优化模型求解的方法,一般分为两方面,一类是为解决非凸非线性问题采用的传统非线性数学求解方法如序列二次规划算法,但是由于非线性数学优化属于局部最优搜索算法,所以非凸优化模型的全局最优性无法保证,并且计算求解时间较长;另一方面是启发类算法,如遗传算法和神经网络算法,然而启发式算法的构建,更多的是基于一种直观或经验的算法,所以无法保证给出最优解,只能求得一个近似最优解,并且区域能源互联网多主体之前的隐私信息无法保证。
[0005]目前的多智能体深度强化学习技术,指将深度学习和强化学习相结合,智能体以“试错”的方式进行学习,通过与区域能源互联网环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习中由区域能源互联网环境对智能体产生的协同优化决策动作的好坏做出一种评价,智能体依靠自身的经历进行学习,通过这种方式,智能体在动作

评价的环境中获得知识,改进协同优化动作方案以适应环境,如图1所示。当同时存在多个智能体与环境交互时,整个系统就变成一个多智能体系统,所有智能体根据当前的环境状态(或者是观测值)来同时选择并执行各自的动作,该各自动作带来的联合动作影响了环境状态的转移和更新,并决定了智能体获得的奖励反馈,从而达到最终的纳什均衡。
[0006]然而区域能源互联网运行优化,涉及多种能源形式的相互耦合和转化,决策结果大多集中在各种能源设备如发电机组、燃气轮机、电锅炉等设备出力多少,以满足系统的供需平衡和优化目标,但是对能源设备本身的工作效率关注较少,使得一些工作效率较低的能源出力设备为达到计划出力,造成能源浪费。其次,基于多智能体深度强化学习的区域能源互联网协同优化决策主要存在如下问题:1.区域能源互联网环境的不稳定性,每个智能体在做决策的同时,其他智能体也在采取动作,所有智能体的联合动作将导致环境状态的不断变化。2.智能体获取信息的局限性,智能体不一定能够获得全局的信息,存在智能体仅
能获取局部的观测信息,多智能体之间的信息交互程度设置存在困难。3.区域能源互联网中各智能体的优化目标和奖励函数设置,以及如何达到纳什均衡存在一定困难。4.随着能源互联网环境模型的复杂程度增加,而导致智能体数量的增加,也会造成状态和动作空间过大,以至于无法进行有效的探索和训练,从而使得区域能源互联网的优化问题难以得到很好的解决。

技术实现思路

[0007]本专利技术的目的在于提供一种基于多智能体强化学习的多能源优化方法、系统和介质,以解决现有技术存在的缺陷,本专利技术通过多智能体深度强化学习和注意力机制相结合,以集中训练分布执行的模式,利用人工智能算法,保护多主体利益隐私的同时,实现区域能源互联网运行优化,进一步提高多能源利用率,从而保证能源互联网安全、稳定、高效运行。
[0008]为达到上述目的,本专利技术采用如下技术方案:
[0009]基于多智能体强化学习的多能源优化方法,包括:
[0010]获取区域能源互联网数据;
[0011]根据区域能源互联网数据设置区域能源互联网环境;
[0012]将多智能体深度强化学习与区域能源互联网环境进行交互训练,在交互训练过程中引入注意力机制,得到多能源协同优化运行策略。
[0013]进一步地,所述区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数;
[0014]所述电力系统参数包括:系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率、电力系统网络节点数、系统电压幅值、相角以及电储能容量;
[0015]所述天然气系统参数包括:天然气管道稳态流量、节点气压和温度以及气负荷;
[0016]所述热力系统参数包括:电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、热网中各节点气压和温度、管道中介质流量和热负荷;
[0017]所述可再生能源参数包括:风力发电机组有功功率以及光伏发电机组有功功率。
[0018]进一步地,所述区域能源互联网环境包括状态空间和动作空间;
[0019]所述状态空间如下式所示:
[0020][0021]式中,S
i,T
为状态空间,T为当前所处调度时段,为i子区域T时段火电机组有功功率,为i子区域T时段火电机组燃煤输入,为i子区域T时段不包含电锅炉的其他电负荷功率,为i子区域T时段电储能电量,为i子区域T时段电锅炉有功功率,为i子区域T时段燃气锅炉燃气输入量,为i子区域T时段风电有功功率,为i子区域T时段光伏有功功率;
[0022]所述动作空间如下式所示:
[0023][0024]式中,A
i,T
为动作空间,为i子区域T时段火电机组有功功率,为i子区域T时
段电储能有功功率,为i子区域T时段电锅炉有功功率,为i子区域T时段燃气锅炉燃气输入量,为i子区域T时段风电有功功率,为i子区域T时段光伏有功功率。
[0025]进一步地,所述将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中,通过设置奖励机制使智能体获得最大奖赏目标,所述奖励机制包括优化目标函数、约束条件及奖励函数。
[0026]进一步地,所述优化目标函数如下式所示:
[0027][0028]式中:C
in
为区域能源互联网总体能源输入成本,为区域能源互联网火力发电燃煤输入,α为燃煤成本系数,为区域能源互联网天然气能源输入,β为燃气成本系数;
[0029]其中,
[0030]式中,n为区域能源互联网中子区域的个数,每个子区域对应一个智能体,m为子区域中设备数量,为第i子区域第j个火力发电出力功率,为第i子区域第j个火力发电机工作效率;为i子区域在T时段第j个燃气锅炉天然气输入量,为i子区域在T时段第j个不包括燃气锅炉的气负荷;
[0031]其中,
[0032]式中,为i子区域T时段本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于多智能体强化学习的多能源优化方法,其特征在于,包括:获取区域能源互联网数据;根据区域能源互联网数据设置区域能源互联网环境;将多智能体深度强化学习与区域能源互联网环境进行交互训练,在交互训练过程中引入注意力机制,得到多能源协同优化运行策略。2.根据权利要求1所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数;所述电力系统参数包括:系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率、电力系统网络节点数、系统电压幅值、相角以及电储能容量;所述天然气系统参数包括:天然气管道稳态流量、节点气压和温度以及气负荷;所述热力系统参数包括:电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、热网中各节点气压和温度、管道中介质流量和热负荷;所述可再生能源参数包括:风力发电机组有功功率以及光伏发电机组有功功率。3.根据权利要求2所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述区域能源互联网环境包括状态空间和动作空间;所述状态空间如下式所示:式中,S
i,T
为状态空间,T为当前所处调度时段,为i子区域T时段火电机组有功功率,为i子区域T时段火电机组燃煤输入,为i子区域T时段不包含电锅炉的其他电负荷功率,为i子区域T时段电储能电量,为i子区域T时段电锅炉有功功率,为i子区域T时段燃气锅炉燃气输入量,为i子区域T时段风电有功功率,为i子区域T时段光伏有功功率;所述动作空间如下式所示:式中,A
i,T
为动作空间,为i子区域T时段火电机组有功功率,为i子区域T时段电储能有功功率,为i子区域T时段电锅炉有功功率,为i子区域T时段燃气锅炉燃气输入量,为i子区域T时段风电有功功率,为i子区域T时段光伏有功功率。4.根据权利要求2所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中,通过设置奖励机制使智能体获得最大奖赏目标,所述奖励机制包括优化目标函数、约束条件及奖励函数。5.根据权利要求4所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述优化目标函数如下式所示:
式中:C
in
为区域能源互联网总体能源输入成本,为区域能源互联网火力发电燃煤输入,α为燃煤成本系数,为区域能源互联网天然气能源输入,β为燃气成本系数;其中,式中,n为区域能源互联网中子区域的个数,每个子区域对应一个智能体,m为子区域中设备数量,为第i子区域第j个火力发电出力功率,为第i子区域第j个火力发电机工作效率;为i子区域在T时段第j个燃气锅炉天然气输入量,为i子区域在T时段第j个不包括燃气锅炉的气负荷;其中,式中,为i子区域T时段风电有功功率,为i子区域T时段光伏有功功率,为i子区域T时段电储能有功功率,为i子区域T时段不包含电锅炉的其他电负荷功率,为i子区域在T时段第j个电锅炉有功功率。6.根据权利要求5所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述约束条件包括:1)满足电力系统、热力系统和天热气系统运行供需平衡;2)电力系统、热力系统和天热气系统中各能量生产转换设备均在设备功率上下限范围内;电能、热能生产转换设备的爬坡率满足爬坡率上下限范围内;3)电力系统满足系统节点电压标幺值在[0.95,1.05]之间。7.根据权利要求6所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述奖励函数表示如下:R=R1+R2+R3+R4+R5式中,R为总奖励函数,R1为第一奖励函数,R2为第二奖励函数,R3为第三奖励函数,R4为第四奖励函数,R5为第五奖励函数,R2和R3中有一个满足条件时,另一个数值为0,R4和R5中有一个满足条件时,另一个数值为0;式中,L
step
为强化学习算法迭代步长,v为系统节点电压标幺值,k1和k2为奖励系数,k3为惩罚系数,C1和C2分别为结果满足条件时的奖励常数值。8.根据权利要求4所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述将多智能体深度强化学习与区域能源互联网环境进行交互训练,具体为:构建区域能源互联网优化运行算法模型框架;
设计多智能体深度强化学习算法;基于区域能源互联网优化运行算法模型框架,利用多智能体深度强化学习算法生成多能源协同优化运行策略;所述利用多智能体深度强化学习算法生成多能源协同优化运行策略,具体为:初始化智能体训练网络参数,预设多智能体训练轮次;随机初始化区域能源互联网环境,获得当前区域能源互联网状态数据;将当前区域能源互联网状态数据输入多智能体中,各子区域智能体进行优化决策,生成联合决策动作,同时环境反馈奖励值和下一时刻状态数据;将当前区域能源互联网状态数据、联合决策动作、奖励值和下一时刻状态数据存储到经验池中;通过经验池中数据对智能体训练网络参数进行更新,循环训练直至满足约束条件收敛或训练轮次大于预设的多智能体训练轮次,生成多能源协同优化运行策略。9.根据权利要...

【专利技术属性】
技术研发人员:李健韩笑傅凯王新迎马慧远
申请(专利权)人:国网北京市电力公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1