多园区综合能源系统协同优化调度方法及系统技术方案

技术编号：40931651 阅读：2 留言：0更新日期：2024-04-18 14:52

本发明专利技术提供了一种多园区综合能源系统协同优化调度方法及系统，对单个园区综合能源系统进行建模，并结合内部能源市场出清机制，建立多园区综合能源系统的整体模型；以多园区综合能源系统整体运行成本最低为优化目标，建立系统经济运行目标函数；将多园区综合能源系统的整体模型转换为多智能体系统的马尔科夫博弈模型，并将系统经济运行目标函数转化为奖励函数，建立多智能体强化学习任务；采用分解多智能体深度策略梯度算法对所述多智能体强化学习任务进行求解，得到系统的优化调度策略，能够对含多重不确定性的多园区综合能源系统进行协同优化调度，满足系统内各个利益主体的运行目标。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于综合能源系统，具体涉及一种多园区综合能源系统协同优化调度方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。

2、多园区综合能源系统(multi park integrated energy system,mpies)作为终端用能侧的多能耦合系统，能将园区中多种能源进行转换、分配与有机协调，给终端用能侧带来了更大的灵活性。相比于各个园区单独运行，多个园区间的协同运行能通过能量互济进一步释放分布式资源的潜力，提高各个园区运行方式的灵活性，降低各个园区运行成本。

3、目前研究大多关注单个综合能源系统的建模及优化调度问题，而未考虑多个能源系统间的能量交互，无法有效实现多个系统间的能量的互补互济，鲜有对多个园区的综合能源系统进行协同优化的研究。在多园区综合能源系统中，各个园区往往分属不同的管理者，根据最小化自身运行成本的目标进行自主调度决策，因此系统呈现出多利益主体特性，但现有研究大多基于集中优化或是并未考虑各主体的利益分配。同时，新能源出力以及多能负荷存在多重不确定性，如何在考虑不确定性的基础上对系统进行协同优化实现高效经济运行，当前尚缺少较为完善的方法手段。

4、综上，传统的方法难以对含多重不确定性的多园区综合能源系统进行协同优化调度，无法满足系统内各个利益主体的运行目标，而目前新兴的多智能体深度强化学习算法能够有效解决此类问题，如maddpg算法等，但在面对复杂动态环境时，存在收敛困难与训练过程不平稳等问题，需要承担极大的计算负担，且不具备可扩展性。

技术实现思路

1、本专利技术为了解决上述问题，提出了一种多园区综合能源系统协同优化调度方法及系统，本专利技术通过构建多园区综合能源系统的数学调度模型，并将其转化为多智能体系统的马尔科夫博弈模型，应用多智能体深度确定性策略梯度算法对问题进行求解，能够对含多重不确定性的多园区综合能源系统进行协同优化调度，满足系统内各个利益主体的运行目标。

2、根据一些实施例，本专利技术采用如下技术方案：

3、一种多园区综合能源系统协同优化调度方法，包括以下步骤：

4、对单个园区综合能源系统进行建模，并结合内部能源市场出清机制，建立多园区综合能源系统的整体模型；

5、以多园区综合能源系统整体运行成本最低为优化目标，建立系统经济运行目标函数；

6、将多园区综合能源系统的整体模型转换为多智能体系统的马尔科夫博弈模型，并将系统经济运行目标函数转化为奖励函数，建立多智能体强化学习任务；

7、采用分解多智能体深度策略梯度算法对所述多智能体强化学习任务进行求解，得到系统的优化调度策略。

8、作为可选择的实施方式，对单个园区综合能源系统进行建模的具体过程包括：对每个园区的供能系统、储能设备进行建模，并对供能系统、储能设备的运行功率及其容量进行约束。

9、作为可选择的实施方式，所述多园区综合能源系统通过内部能量市场实现园区间能量交易的结算，且出清价格由各个园区共同决定，内部购能价格设置有上限和下限，当园区之间供过于求时，内部购能价格达到下限，低于向外部网络购能的价格，相反，当园区之间供不应求时，内部售能价格达到上限，高于向外部网络售能的价格。

10、作为可选择的实施方式，所述多智能体系统的马尔科夫博弈模型包括观测空间、动作空间及奖励函数；

11、所述观测空间包括每个园区智能体的状态空间，包括当前调度时段、外部网络价格、新能源出力、电热负荷和当前储能荷电状态；

12、所述动作空间包括每个园区智能体在环境中可做出决策的变量，具体包括电储能充放电量、热电联产机组出力、燃气锅炉出力、总购电量、总购热量、总售电量及总售热量；

13、所述奖励函数包括每个园区智能体的成本函数与惩罚函数。

14、作为进一步的实施方式，所述惩罚函数包括电储能装置的过充量和过放量，所述电储能装置的过充量和过放量分别乘以相应的惩罚系数。

15、作为可选择的实施方式，采用分解多智能体深度策略梯度算法对所述多智能体强化学习任务进行求解的具体过程包括：对各个园区智能体的网络模型进行训练，利用训练后的网络模型进行求解；

16、所述进行训练的过程包括：

17、初始化各个园区智能体的各自的策略网络、价值网络与混合网络参数，随后每个园区智能体获得自身对多园区环境的观测并输入策略网络，策略网络基于观测选择园区智能体应采取的动作，作用于多园区环境中得到下一时段的观测以及当前时段的奖励，并整合为经验序列储存进经验回放样本池中，价值网络基于提取的经验样本估计各个智能体的效用函数，通过混合网络组合成联合状态动作值函数，再对每个智能体的网络进行更新，不断循环直至训练完毕。

18、作为进一步的实施方式，策略网络决定相应园区智能体采取的动作，价值网络用于估计各个智能体的效用函数，并通过混合网络将这些效用组合成联合状态动作值函数；

19、价值网络通过最小化损失函数更新参数；

20、策略网络朝联合状态动作值函数增大的方向更新参数以获得更大的价值；

21、价值、策略和混合目标网络的参数由相应网络参数进行滞后更新，且所述滞后更新采用软更新的方式。

22、一种多园区综合能源系统协同优化调度系统，包括：

23、建模模块，被配置为对单个园区综合能源系统进行建模，并结合内部能源市场出清机制，建立多园区综合能源系统的整体模型；

24、目标函数构建模块，被配置为以多园区综合能源系统整体运行成本最低为优化目标，建立系统经济运行目标函数；

25、转换模块，被配置为将多园区综合能源系统的整体模型转换为多智能体系统的马尔科夫博弈模型，并将系统经济运行目标函数转化为奖励函数，建立多智能体强化学习任务；

26、求解模块，被配置为采用分解多智能体深度策略梯度算法对所述多智能体强化学习任务进行求解，得到系统的优化调度策略。

27、一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成上述方法中的步骤。

28、一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述方法中的步骤。

29、与现有技术相比，本专利技术的有益效果为：

30、本专利技术提供了一种多园区综合能源系统的经济运行优化调度方案，采用不依赖于对多重不确定量预测的分解多智能体深度策略梯度算法作为求解方法，得到系统整体经济高效运行方案，保证系统内多利益主体合理的收益分配。

31、本专利技术利用分解多智能体深度策略梯度算法进行求解，相较于现有算法，各个智能体仅需依照自身的状态，通过价值网络计算自己的效用函数，再通过混合网络拟合成联合状态动作值函数，联合状态动作值函数为包含了全局智能体信息的函数。由此，各个智能体的网络参数不再是由各自的状态动本文档来自技高网...

【技术保护点】

1.一种多园区综合能源系统协同优化调度方法，其特征是，包括以下步骤：

2.如权利要求1所述的一种多园区综合能源系统协同优化调度方法，其特征是，对单个园区综合能源系统进行建模的具体过程包括：对每个园区的供能系统、储能设备进行建模，并对供能系统、储能设备的运行功率及其容量进行约束。

3.如权利要求1所述的一种多园区综合能源系统协同优化调度方法，其特征是，所述多园区综合能源系统通过内部能量市场实现园区间能量交易的结算，且出清价格由各个园区共同决定，内部购能价格设置有上限和下限，当园区之间供过于求时，内部购能价格达到下限，低于向外部网络购能的价格，相反，当园区之间供不应求时，内部售能价格达到上限，高于向外部网络售能的价格。

4.如权利要求1所述的一种多园区综合能源系统协同优化调度方法，其特征是，所述多智能体系统的马尔科夫博弈模型包括观测空间、动作空间及奖励函数；

5.如权利要求4所述的一种多园区综合能源系统协同优化调度方法，其特征是，所述惩罚函数包括电储能装置的过充量和过放量，所述电储能装置的过充量和过放量分别乘以相应的惩罚系数。

<...

【技术特征摘要】

1.一种多园区综合能源系统协同优化调度方法，其特征是，包括以下步骤：

5.如权利要求4所述的一种多园区综合能源系统协同优化调度方法，其特征是，所述惩罚函数包括电储能装置的过充量...

【专利技术属性】
技术研发人员：李珂，叶宁，张承慧，王学睿，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人