【技术实现步骤摘要】
基于多智能体强化学习的多能源优化方法、系统和介质
[0001]本专利技术属于区域能源互联网领域,具体涉及一种基于多智能体强化学习的多能源优化方法、系统和介质。
技术介绍
[0002]区域能源互联网是电力、天然气、热力及新能源等多种能源相耦合的综合能源系统,因此区域能源互联网运行优化问题,涉及到非线性、随机性、非凸性以及多目标问题求解问题,并且由于不同的能源体系中行业壁垒的存在,导致能源数据无法完全的交互,如何在多种能源的生产、传输、存储、消费等环节,更好的消纳可再生能源,同时提高多能源利用率,确保能源互联网多能源协同优化和系统安全、稳定、高效的运行,变得至关重要。
[0003]目前,清洁可再生能源大规模发展,区域能源互联网成为解决可再生能源就地消纳问题,实现能源网络紧密融合、提高整体系统能效的必然趋势。区域能源互联网具有更强的灵活性和可靠性,因此,获取能源供需信息,并实施快速合理优化策略,是控制多能源系统生产运行和实现能源的安全高效流动的关键。
[0004]区域能源互联网优化面临多种能源和多主体利益,目前应用于优化模型求解的方法,一般分为两方面,一类是为解决非凸非线性问题采用的传统非线性数学求解方法如序列二次规划算法,但是由于非线性数学优化属于局部最优搜索算法,所以非凸优化模型的全局最优性无法保证,并且计算求解时间较长;另一方面是启发类算法,如遗传算法和神经网络算法,然而启发式算法的构建,更多的是基于一种直观或经验的算法,所以无法保证给出最优解,只能求得一个近似最优解,并且区域能源互联网多主体之前的隐 ...
【技术保护点】
【技术特征摘要】
1.基于多智能体强化学习的多能源优化方法,其特征在于,包括:获取区域能源互联网数据;根据区域能源互联网数据设置区域能源互联网环境;将多智能体深度强化学习与区域能源互联网环境进行交互训练,在交互训练过程中引入注意力机制,得到多能源协同优化运行策略。2.根据权利要求1所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述区域能源互联网数据包括电力系统参数、热力系统参数、天然气系统参数和可再生能源参数;所述电力系统参数包括:系统频率、火力发电机组有功功率和无功功率、发电机组燃料输入量、电负荷消耗的有功功率和无功功率、电力系统网络节点数、系统电压幅值、相角以及电储能容量;所述天然气系统参数包括:天然气管道稳态流量、节点气压和温度以及气负荷;所述热力系统参数包括:电锅炉的功率和实际转换热量、燃气锅炉的功率和实际转换热量、热网中各节点气压和温度、管道中介质流量和热负荷;所述可再生能源参数包括:风力发电机组有功功率以及光伏发电机组有功功率。3.根据权利要求2所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述区域能源互联网环境包括状态空间和动作空间;所述状态空间如下式所示:式中,S
i,T
为状态空间,T为当前所处调度时段,为i子区域T时段火电机组有功功率,为i子区域T时段火电机组燃煤输入,为i子区域T时段不包含电锅炉的其他电负荷功率,为i子区域T时段电储能电量,为i子区域T时段电锅炉有功功率,为i子区域T时段燃气锅炉燃气输入量,为i子区域T时段风电有功功率,为i子区域T时段光伏有功功率;所述动作空间如下式所示:式中,A
i,T
为动作空间,为i子区域T时段火电机组有功功率,为i子区域T时段电储能有功功率,为i子区域T时段电锅炉有功功率,为i子区域T时段燃气锅炉燃气输入量,为i子区域T时段风电有功功率,为i子区域T时段光伏有功功率。4.根据权利要求2所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述将多智能体深度强化学习与区域能源互联网环境进行交互训练过程中,通过设置奖励机制使智能体获得最大奖赏目标,所述奖励机制包括优化目标函数、约束条件及奖励函数。5.根据权利要求4所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述优化目标函数如下式所示:
式中:C
in
为区域能源互联网总体能源输入成本,为区域能源互联网火力发电燃煤输入,α为燃煤成本系数,为区域能源互联网天然气能源输入,β为燃气成本系数;其中,式中,n为区域能源互联网中子区域的个数,每个子区域对应一个智能体,m为子区域中设备数量,为第i子区域第j个火力发电出力功率,为第i子区域第j个火力发电机工作效率;为i子区域在T时段第j个燃气锅炉天然气输入量,为i子区域在T时段第j个不包括燃气锅炉的气负荷;其中,式中,为i子区域T时段风电有功功率,为i子区域T时段光伏有功功率,为i子区域T时段电储能有功功率,为i子区域T时段不包含电锅炉的其他电负荷功率,为i子区域在T时段第j个电锅炉有功功率。6.根据权利要求5所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述约束条件包括:1)满足电力系统、热力系统和天热气系统运行供需平衡;2)电力系统、热力系统和天热气系统中各能量生产转换设备均在设备功率上下限范围内;电能、热能生产转换设备的爬坡率满足爬坡率上下限范围内;3)电力系统满足系统节点电压标幺值在[0.95,1.05]之间。7.根据权利要求6所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述奖励函数表示如下:R=R1+R2+R3+R4+R5式中,R为总奖励函数,R1为第一奖励函数,R2为第二奖励函数,R3为第三奖励函数,R4为第四奖励函数,R5为第五奖励函数,R2和R3中有一个满足条件时,另一个数值为0,R4和R5中有一个满足条件时,另一个数值为0;式中,L
step
为强化学习算法迭代步长,v为系统节点电压标幺值,k1和k2为奖励系数,k3为惩罚系数,C1和C2分别为结果满足条件时的奖励常数值。8.根据权利要求4所述的基于多智能体强化学习的多能源优化方法,其特征在于,所述将多智能体深度强化学习与区域能源互联网环境进行交互训练,具体为:构建区域能源互联网优化运行算法模型框架;
设计多智能体深度强化学习算法;基于区域能源互联网优化运行算法模型框架,利用多智能体深度强化学习算法生成多能源协同优化运行策略;所述利用多智能体深度强化学习算法生成多能源协同优化运行策略,具体为:初始化智能体训练网络参数,预设多智能体训练轮次;随机初始化区域能源互联网环境,获得当前区域能源互联网状态数据;将当前区域能源互联网状态数据输入多智能体中,各子区域智能体进行优化决策,生成联合决策动作,同时环境反馈奖励值和下一时刻状态数据;将当前区域能源互联网状态数据、联合决策动作、奖励值和下一时刻状态数据存储到经验池中;通过经验池中数据对智能体训练网络参数进行更新,循环训练直至满足约束条件收敛或训练轮次大于预设的多智能体训练轮次,生成多能源协同优化运行策略。9.根据权利要...
【专利技术属性】
技术研发人员:李健,韩笑,傅凯,王新迎,马慧远,
申请(专利权)人:国网北京市电力公司国家电网有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。