一种基于深度强化学习的多能流优化智能仿真方法及系统技术方案

技术编号:34479916 阅读:12 留言:0更新日期:2022-08-10 08:56
本发明专利技术属于能源互联网仿真技术领域,公开一种基于深度强化学习的多能流优化智能仿真方法,所述方法包括:载入能源互联网模型;根据所述能源互联网模型设置仿真参数;将所述仿真参数输入预先训练好的深度强化学习模块,获得能源互联网模型中各设备的动作;输出所述动作并进行图形化展示。本发明专利技术在深度强化学习模块的训练过程中,将深度强化学习模块与图形化建模模块联合调用,深度强化学习模块计算t时刻动作a

【技术实现步骤摘要】
一种基于深度强化学习的多能流优化智能仿真方法及系统


[0001]本专利技术属于能源互联网仿真
,特别涉及一种基于深度强化学习的多能流优化智能仿真方法及系统。

技术介绍

[0002]能源互联网建模仿真目前仍主要以物理机理模型为主,利用数学公式和物理机理构建发电机、热电联产机组、冷热电三联供、P2G、能量路由器、电网、热网等关键设备及功能网络模型;也可以数据驱动,基于海量历史数据利用深度学习、聚类分析等技术构建发电、负荷、能源耦合及储能等模型的数据驱动建模方法。建模仿真的目标是尽最大可能地数字化复现真实现场的设备、环境等关键环节,并在此基础上开展规划设计、监测分析、运行优化等内容。
[0003]优化运行相关研究目前主要是基于数学模型预测的方法和启发式算法实现优化。但是数学模型预测方法例如混合整数线性规划方法,依赖于预测的准确度,同时求解过程较为复杂,启发式算法如遗传算法、粒子群算法计算成本较大,实时性方面有待于提升。
[0004]清华大学CloudPSS:基于云计算的电力系统仿真平台(Cloud computing

based Power System Simulator,CloudPSS)是一款面向能源互联网的建模仿真平台,其采用完全自主研发的电磁暂态仿真内核,利用云端的异构并行计算资源,为用户提供面向交直流混联电网、可再生能源发电、微电网、配电网、供热网等多种能源网络的建模及仿真分析功能。CloudPSS云仿真为开放式云服务平台。其云服务框架,如图1所示,包含高度解耦的表现层、应用层和计算层,从而实现建模仿真过程中算例和结果、模型和算法、以及计算资源的分离。表现层与应用层之间具备数据安全隔离,可保证用户数据的隐私和安全性。应用层与计算层之间进一步通过虚拟化技术保证了模型及算法的安全性以及应用之间的独立性,从而形成高度安全、灵活、可扩展的云服务平台。
[0005]但是该现有技术仍存在以下技术问题:1.实现了图形化拖拽式建模,但未实现和python程序的联合调试,不能在CloudPSS中直接调用深度强化学习模型;2.不能在python程序中调用CloudPSS的潮流计算功能。

技术实现思路

[0006]本专利技术的目的在于提供一种基于深度强化学习的多能流优化智能仿真方法及系统,以解决现有仿真系统软件与深度强化学习算法难以联合运算的技术问题;本专利技术能够实现在图形化建模仿真界面直接开展深度强化学习模型调用,以进一步实现基于仿真工具开展基于深度强化学习的运行优化智能仿真研究,大幅提高研究效率。
[0007]为了实现上述目的,本专利技术采用如下技术方案:
[0008]第一方面,本专利技术提供一种基于深度强化学习的多能流优化智能仿真方法,包括:
[0009]根据所述能源互联网模型设置仿真参数;
[0010]将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各
设备的控制策略及能源互联网模型状态信息;
[0011]输出所控制策略及能源互联网模型状态信息。
[0012]本专利技术进一步的改进在于:所述载入能源互联网模型的步骤中,所述能源互联网模型为预先建立的电/气/热能源系统模型。
[0013]本专利技术进一步的改进在于:所述根据能源互联网模型设置仿真参数的步骤中,所述仿真参数包括:感知环境状态、动作和奖励;
[0014]所述感知环境状态包括电、热、气三种能源形式的多能流潮流数据;电网络的参数包括有功、无功、电压和功率因数;热网络参数包括温度和流量;气网络参数包括压力和流量;
[0015]所述动作包括负荷调减、发电机出力调整和储能储热储气调整;
[0016]所述奖励包括发电成本、运行成本及功率越限惩罚。
[0017]本专利技术进一步的改进在于:所述将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各设备的控制策略及能源互联网模型状态信息的步骤中,预先训练好的深度强化学习模型的训练步骤包括:
[0018]基于能源互联网模型设置训练用仿真参数;所述训练用仿真参数包括:感知环境状态、动作和奖励;所述感知环境状态包括电、热、气三种能源形式的多能流潮流数据;电网络的参数包括有功、无功、电压、功率因数;热网络参数包括温度、流量;气网络参数包括压力、流量;所述动作包括负荷调减、发电机出力调整、储能储热储气调整;所述奖励包括发电成本、运行成本及功率越限惩罚;
[0019]基于所述训练用仿真参数对智能体进行训练获得预先训练好的深度强化学习模型。
[0020]本专利技术进一步的改进在于:所述基于所述训练用仿真参数对智能体进行训练获得预先训练好的深度强化学习模型的步骤中,对智能体进行训练的步骤包括:
[0021]步骤1:设置训练python脚本,确定main()函数及迭代次数;
[0022]步骤2:构建行动者网络和评论家网络,根据感知环境状态,定义状态空间s为n个参数,对应输入层神经元个数为n,动作空间为负荷调减、发电机出力调整、储能储热储气调整,动作数量为m,对应输出层神经元个数为m;
[0023]步骤3:训练循环开始,根据能源互联网模型中各设备初始参数条件,计算电/气/热能源系统潮流参数,生成t时刻环境状态s
t

[0024]步骤4:行动者网络根据环境状态s
t
生成t时刻动作a
t

[0025]步骤5:根据t时刻动作a
t
观察能源互联网模型环境状态,并将动作更新至图形化建模模块进行潮流计算,生成t+1时刻环境状态s
t+1

[0026]步骤6:根据t时刻动作a
t
和t+1时刻环境状态s
t+1
计算t时刻动作a
t
的奖励值R;
[0027]步骤7:将由t时刻环境状态s
t
、动作a
t
、t+1时刻环境状态s
t+1
、t时刻动作a
t
的奖励值R构成的四元组{s
t
,a
t
,s
t+1
,R}作为一条样本输送至经验回放单元;
[0028]经验回放单元设置为更新机制:由步骤2

步骤6不断产生新的样本输送至经验回放单元,超出经验回放单元预设存储数量的老样本自动删除;经验回放单元未满时循环进行步骤2

步骤6,待经验回放单元储的样本存满后执行步骤7;
[0029]步骤8:利用固定Batch对经验回放单元中存储的样本进行采样,计算梯度后进行
行动者网络和评论家网络的参数更新;
[0030]行动者网络和评论家网络根据如下损失函数进行网络学习和参数更新:
[0031][0032]其中,y是目标行动网络Q值;是目标评论网络的Q值;R是奖励函数;s是状态;a是目标行动网络传给目标评论网络的关系向量;γ是折扣因子;L(θ)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的多能流优化智能仿真方法,其特征在于,包括:根据能源互联网模型设置仿真参数;将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各设备的控制策略及能源互联网模型状态信息;输出所述控制策略及能源互联网模型状态信息。2.根据权利要求1所述基于深度强化学习的多能流优化智能仿真方法,其特征在于,所述能源互联网模型为预先建立的电/气/热能源系统模型。3.根据权利要求1所述基于深度强化学习的多能流优化智能仿真方法,其特征在于,所述根据能源互联网模型设置仿真参数的步骤中,所述仿真参数包括:感知环境状态、动作和奖励;所述感知环境状态包括电、热、气三种能源形式的多能流潮流数据;电网络的参数包括有功、无功、电压和功率因数;热网络参数包括温度和流量;气网络参数包括压力和流量;所述动作包括负荷调减、发电机出力调整和储能储热储气调整;所述奖励包括发电成本、运行成本及功率越限惩罚。4.根据权利要求1所述基于深度强化学习的多能流优化智能仿真方法,其特征在于,所述将所述仿真参数输入预先训练好的深度强化学习模型,获得能源互联网模型中各设备的控制策略及能源互联网模型状态信息的步骤中,预先训练好的深度强化学习模型的训练步骤包括:基于能源互联网模型设置训练用仿真参数;所述训练用仿真参数包括:感知环境状态、动作和奖励;所述感知环境状态包括电、热、气三种能源形式的多能流潮流数据;电网络的参数包括有功、无功、电压、功率因数;热网络参数包括温度、流量;气网络参数包括压力、流量;所述动作包括负荷调减、发电机出力调整、储能储热储气调整;所述奖励包括发电成本、运行成本及功率越限惩罚;基于所述训练用仿真参数对智能体进行训练获得预先训练好的深度强化学习模型。5.根据权利要求4所述基于深度强化学习的多能流优化智能仿真方法,其特征在于,所述基于所述训练用仿真参数对智能体进行训练获得预先训练好的深度强化学习模型的步骤中,对智能体进行训练的步骤包括:步骤1:设置训练python脚本,确定main()函数及迭代次数;步骤2:构建行动者网络和评论家网络,根据感知环境状态,定义状态空间s为n个参数,对应输入层神经元个数为n,动作空间为负荷调减、发电机出力调整、储能储热储气调整,动作数量为m,对应输出层神经元个数为m;步骤3:训练循环开始,根据能源互联网模型中各设备初始参数条件,计算电/气/热能源系统潮流参数,生成t时刻环境状态s
t
;步骤4:行动者网络根据环境状态s
t
生成t时刻动作a
t
;步骤5:根据t时刻动作a
t
观察能源互联网模型环境状态,并将动作更新至图形化建模模块进行潮流计算,生成t+1时刻环境状态s
t+1
;步骤6:根据t时刻动作a
t
和t+1时刻环境状态s
t+1
计算t时刻动作a
t
的奖励值R;步骤7:将由t时刻环境状态s
t
、动作a
t
、t+1时刻环境状态s
t+1
、t时刻动作a
t
的奖励值R构成的四元组{s
t
,a
t
,s
t+1
,R}作为一条样本输送至经验回放单元;
经验回放单元设置为更新机制:由步骤2

步骤6不断产生新的样本输送至经验回放单元,超出经验回放单元预设存储数量的老样本自动删除;经验...

【专利技术属性】
技术研发人员:陈盛王新迎田捷闫冬武国良祖光鑫
申请(专利权)人:国网黑龙江省电力有限公司电力科学研究院国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1