基于无模型强化学习的综合能源能量优化方法及装置制造方法及图纸

技术编号:25090604 阅读:12 留言:0更新日期:2020-07-31 23:35
本申请公开了基于无模型强化学习的综合能源能量优化方法及装置,方法包括:根据预置综合能源服务商模型获取供能指导信号样本;将供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,预置损失函数包括范数惩罚项;通过蒙特卡洛算法根据能量交换量进行奖励性模拟计算,获取最优供能指导信号;将最优供能指导信号代入预置能量优化模型中,求得最优调度方案,预置能量优化模型包括预置能量调度函数和预置约束条件。本申请解决了基于模型的综合能源系统能量优化技术适用性和效率均较低的技术问题。

【技术实现步骤摘要】
基于无模型强化学习的综合能源能量优化方法及装置
本申请涉及能源系统
,尤其涉及基于无模型强化学习的综合能源能量优化方法及装置。
技术介绍
为积极推动能源结构调整,妥善应对石化能源短缺和扎实推进环保工作,近年来我国开始实施以电代煤、以气代煤的能源发展战略,使得能源间的联系日趋紧密,打破了各能源分开规划、独立运行的既有模式,逐步形成了配电和配气等多系统协调运行、多元能源互补互济的园区综合能源系统。近年来,新兴的需求侧能源在保障园区综合能源系统的经济性和安全性方面发挥着越来越重要的作用。园区综合能源系统的安全稳定运行是提高供能可靠性的重要保证。由于系统中负荷终端能源消费形式多样,冷热电负荷需求特性各异、变化频繁、峰谷差大,导致系统电压与气压在长时间尺度下存在较大波动且分布极不平衡,干扰设备正常运行,降低了供能质量和稳定性,增加了系统线路潮流波动和微型燃气轮机脱网的风险,对园区综合能源系统的安全运行提出了挑战。现有的园区综合能源系统能量优化方法主要是基于模型,并建立数学方程描述能源的调度,但是该方法无法保证算法的收敛性,且迭代运算对时间和资源的消耗较大。
技术实现思路
本申请提供了基于无模型强化学习的综合能源能量优化方法及装置,用于解决基于模型的综合能源系统能量优化技术适用性和效率均较低的技术问题。有鉴于此,本申请第一方面提供了一种基于无模型强化学习的综合能源能量优化方法,包括:根据预置综合能源服务商模型获取供能指导信号样本;将所述供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,所述预置损失函数包括范数惩罚项;通过蒙特卡洛算法根据所述能量交换量进行奖励性模拟计算,获取最优供能指导信号;将所述最优供能指导信号代入预置能量优化模型中,求得最优调度方案,所述预置能量优化模型包括预置能量调度函数和预置约束条件。优选地,所述预置综合能源服务商模型为:其中,α为权重因子,λ(t)为供能指导信号,和分别为园区综合能源系统第t时间段与配网的能量交换量、在NT时间内最大能量交换量和平均能量交换量,εm为换算因子,profitbase为配网综合能源服务商收益,NT和Nm分别为总时间和园区综合能源子系统数量,和分别满足如下约束关系:优选地,所述将所述供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,之前还包括:将售价样本根据预置基准值转化为标幺值,得到供能指导信号;将所述供能指导信号进行归一化处理,得到所述供能指导信号样本。优选地,所述将所述供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,包括:选取均方差函数作为所述预置神经网络的训练损失函数;在所述训练损失函数中添加根据正则化计算得到的所述范数惩罚项,得到所述预置损失函数;将所述供能指导信号样本输入预置神经网络中进行训练,获取园区综合能源系统与配网的所述能量交换量。优选地,所述通过蒙特卡洛算法根据所述能量交换量进行奖励性模拟计算,获取最优供能指导信号,包括:通过蒙特卡洛算法根据所述能量交换量、预置奖励权重和预置模拟次数进行奖励性模拟计算,获取最优供能指导信号。本申请第二方面提供了一种基于无模型强化学习的综合能源能量优化装置,包括:获取模块,用于根据预置综合能源服务商模型获取供能指导信号样本;训练模块,用于将所述供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,所述预置损失函数包括范数惩罚项;计算模块,用于通过蒙特卡洛算法根据所述能量交换量进行奖励性模拟计算,获取最优供能指导信号;优化求解模块,用于将所述最优供能指导信号代入预置能量优化模型中,求得最优调度方案,所述预置能量优化模型包括预置能量调度函数和预置约束条件。优选地,所述预置综合能源服务商模型为:其中,α为权重因子,λ(t)为供能指导信号,和分别为园区综合能源系统的第t时间段与配网的能量交换量、在NT时间内最大能量交换量和平均能量交换量,εm为换算因子,profitbase为配网综合能源服务商收益,NT和Nm分别为总时间和园区综合能源子系统数量,和分别满足如下约束关系:优选地,还包括:预处理模块,用于将售价样本根据预置基准值转化为标幺值,得到供能指导信号;将所述供能指导信号进行归一化处理,得到所述供能指导信号样本。优选地,所述训练模块具体用于:选取均方差函数作为所述预置神经网络的训练损失函数;在所述训练损失函数中添加根据正则化计算得到的所述范数惩罚项,得到所述预置损失函数;将所述供能指导信号样本输入预置神经网络中进行训练,获取园区综合能源系统与配网的所述能量交换量。优选地,所述计算模块具体用于:通过蒙特卡洛算法根据能量交换量、预置奖励权重和预置模拟次数进行奖励性模拟计算,获取最优供能指导信号。从以上技术方案可以看出,本申请实施例具有以下优点:本申请中,提供了一种基于无模型强化学习的综合能源能量优化方法,包括:根据预置综合能源服务商模型获取供能指导信号样本;将供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,预置损失函数包括范数惩罚项;通过蒙特卡洛算法根据能量交换量进行奖励性模拟计算,获取最优供能指导信号;将最优供能指导信号代入预置能量优化模型中,求得最优调度方案,预置能量优化模型包括预置能量调度函数和预置约束条件。本申请提供的基于无模型强化学习的综合能源能量优化方法,结合神经网络和蒙特卡洛强化学习两种算法对园区综合能源系统进行能量优化;利用神经网络的数据驱动特性,对供能指导信号进行训练,以较高精确度表达出园区综合能源系统与配网的能量交换量,且计算效率高;而蒙特卡洛强化学习方法能够解决隐藏在数据间的信息问题,具有良好的适用性,即使使用了带有约束条件的预置能量优化模型,也不会因为计算量的适当增加而导致算法不适用。因此,本申请提供的基于无模型强化学习的综合能源能量优化方法能够解决基于模型的综合能源系统能量优化技术适用性和效率均较低的技术问题。附图说明图1为本申请实施例提供的基于无模型强化学习的综合能源能量优化方法的一个流程示意图;图2为本申请实施例提供的基于无模型强化学习的综合能源能量优化方法的另一个流程示意图;图3为本申请实施例提供的基于无模型强化学习的综合能源能量优化装置的一个结构示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请本文档来自技高网
...

【技术保护点】
1.基于无模型强化学习的综合能源能量优化方法,其特征在于,包括:/n根据预置综合能源服务商模型获取供能指导信号样本;/n将所述供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,所述预置损失函数包括范数惩罚项;/n通过蒙特卡洛算法根据所述能量交换量进行奖励性模拟计算,获取最优供能指导信号;/n将所述最优供能指导信号代入预置能量优化模型中,求得最优调度方案,所述预置能量优化模型包括预置能量调度函数和预置约束条件。/n

【技术特征摘要】
1.基于无模型强化学习的综合能源能量优化方法,其特征在于,包括:
根据预置综合能源服务商模型获取供能指导信号样本;
将所述供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,所述预置损失函数包括范数惩罚项;
通过蒙特卡洛算法根据所述能量交换量进行奖励性模拟计算,获取最优供能指导信号;
将所述最优供能指导信号代入预置能量优化模型中,求得最优调度方案,所述预置能量优化模型包括预置能量调度函数和预置约束条件。


2.根据权利要求1所述的基于无模型强化学习的综合能源能量优化方法,其特征在于,所述预置综合能源服务商模型为:



其中,α为权重因子,λ(t)为供能指导信号,和分别为园区综合能源系统第t时间段与配网的能量交换量、在NT时间内最大能量交换量和平均能量交换量,εm为换算因子,profitbase为配网综合能源服务商收益,NT和Nm分别为总时间和园区综合能源子系统数量,和分别满足如下约束关系:








3.根据权利要求1所述的基于无模型强化学习的综合能源能量优化方法,其特征在于,所述将所述供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,之前还包括:
将售价样本根据预置基准值转化为标幺值,得到供能指导信号;
将所述供能指导信号进行归一化处理,得到所述供能指导信号样本。


4.根据权利要求1所述的基于无模型强化学习的综合能源能量优化方法,其特征在于,所述将所述供能指导信号样本输入预置神经网络中,并根据预置损失函数进行网络训练,获取园区综合能源系统与配网的能量交换量,包括:
选取均方差函数作为所述预置神经网络的训练损失函数;
在所述训练损失函数中添加根据正则化计算得到的所述范数惩罚项,得到所述预置损失函数;
将所述供能指导信号样本输入预置神经网络中进行训练,获取园区综合能源系统与配网的所述能量交换量。


5.根据权利要求1所述的基于无模型强化学习的综合能源能量优化方法,其特征在于,所述通过蒙特卡洛算法根据所述能量交换量进行奖励性模拟计算,获取最优供能指导信号,包括:
通过蒙特卡...

【专利技术属性】
技术研发人员:雷金勇郭祚刚袁智勇徐敏黎小林王琦
申请(专利权)人:南方电网科学研究院有限责任公司中国南方电网有限责任公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1