一种基于深度强化学习的综合能源系统优化调度方法技术方案

技术编号：40222880 阅读：5 留言：0更新日期：2024-02-02 22:28

本发明专利技术公开了一种基于深度强化学习的综合能源系统的优化调度方法，涉及智慧能源领域，旨在以数据智能方法提高综合能源系统中多装备的协同运行性能。其技术方案要点是合理构造适应综合能源系统优化调度的深度强化学习调度框架，包括选取表征能源系统协同运行的调度变量、状态变量、设计约束指标、奖励函数；通过与实时数据交互，使系统能够适应不断变化的环境条件和用户需求，应对可再生出力、用户负荷的波动性以及电价变化，实现优化调度，提高系统整体性能。本发明专利技术的应用领域涵盖能源管理、可再生能源集成、调度等多个领域，提升复杂综合能源系统的稳定经济运行水平。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种基于深度强化学习的综合能源系统优化调度方法，属于智慧能源的，该技术的应用领域涵盖能源管理、可再生能源集成、调度等多个领域。

技术介绍

1、构建高比例可再生综合能源系统，实现能源的高效利用和可再生资源的就地消纳，成为能源系统低碳转型重要途径之一。然而，综合能源系统中各能源子系统之间存在较强耦合和较大的动态特性差异，使得综合能源系统经济低碳运行存在挑战。因此，迫切需要在系统调度层面综合能源系统长周期内的运行提供优化的设定值指令，以保证系统稳定、经济、灵活供能，展现综合能源系统的优势。

2、目前，针对热电联产综合能源系统的运行优化已有许多在系统控制层面的研究，旨在实现系统各能源协调控制，快速满足电、热侧的负荷供需平衡。但是，缺乏确切合理的控制指令会使得综合能源系统运行经济稳定性大大降低。为此，许多学者对综合能源系统的运行进行了优化调度方面的研究，旨在实现系统的最佳性能，从而降低成本、减少碳排放，提高可靠性，以及更好地适应能源市场的波动。

3、当涉及综合能源系统的调度方法时，有多种方法可供选择，以满足不同系统的需求。这些方法可根据其特性分为以下几类：

4、基于规则的调度方法：基于规则的调度方法依赖于预定义的规则和策略来管理综合能源系统。这些规则可以根据时间表进行操作，例如在高峰时段提供额外的电力供应，而在低峰时段则降低供应。这种方法在管理简单的系统或需要最小计算复杂度的情况下非常有效。然而，对于复杂的系统和变化快速的条件来说，这些规则可能会变得不够灵活，无法有效应对不断变化的需求和资源。

5、优化调度方法：优化调度方法使用数学优化技术，例如线性规划、整数规划和非线性规划，以确定最佳的能源配置和调度策略。这需要建立系统的数学模型，包括约束和目标函数，然后使用优化算法来寻找最优解。优化方法可以考虑多个目标，如成本最小化、碳排放最小化和可靠性最大化。这种方法的优点是它们可以在考虑多个目标的情况下找到全局最优解，但通常需要大量计算资源。

6、深度强化学习调度方法：深度强化学习方法最近在综合能源系统调度中崭露头角。这种方法利用深度神经网络和强化学习技术，通过与环境的交互来学习最佳决策策略。深度强化学习的优势在于它可以应对复杂、非线性系统和不断变化的条件，而无需显式的模型。系统通过与环境交互来学习，根据奖励信号来优化决策，从而不断改进性能。这种方法在实时性要求高、需求和资源波动大的情况下效果显著。

技术实现思路

1、为解决上述技术问题，本专利技术公开一种基于深度强化学习的综合能源系统优化调度方法，旨在提高能源利用效率、增强可持续性，实现负荷需求平衡，减少人工干预，应对能源市场波动。具体技术方案如下：

2、一种基于深度强化学习的综合能源系统优化调度方法，包括：

3、步骤1：建立综合能源系统模型，包括风力发电机组、光伏发电机组、蓄电池模型及园区电负荷需求模型；

4、步骤2：根据所述综合能源系统模型，建立经济优化模型，明确系统变量、约束；根据指标、变量、约束构建深度强化学习训练模型框架，即设计强化学习状态变量s、调度变量a、奖励函数r；

5、步骤3：搭建td3训练网络结构，设置td3训练网络结构的策略网络和评估网络的网络参数、缓冲区大小、折扣因子、软更新速率；

6、步骤4：通过于综合能源系统模型交互，训练智能体，使其学会如何在不同情况下做出最佳决策，以最大化奖励函数，从而实现综合能源系统稳定经济运行水平。

7、进一步的，步骤1建立综合能源系统模型的机理中，各个模型搭建如下：

8、光伏发电机组模型如下式(1)所示：

9、式中，ppv表示光伏发电机组的输出功率，单位kw；ypv是光伏发电机组的额定容量，单位kw，代表了标准测试条件下的输出功率；fpv是光伏降额因子；gt当前时间步长的太阳辐照强度，单位kw/m2；gt,stc为标准测试条件下的太阳辐照强度，单位kw/m2，通常取1；αp是光伏电池板的功率温度系数，单位％/k；tc为当前时间步长的光伏电池温度，单位k；tc,stc为标准测试条件下的光伏电池温度，单位k；

10、风力发电机组的风机输出功率通过预测风速及风速功率特性曲线进行估计，如下式(2)所示：

11、

12、式中，为t时刻风机输出功率，单位kw；uhub为风机轮毂高度处的预测风速，单位m/s；a,b,c,d为拟合系数；vci、vr、vco分别为风机的切入风速、额定风速和切出风速，单位m/s；

13、蓄电池模型如下式(3)所示：

14、

15、式中，和为t时刻和t-1时刻电池储能系统的容量，单位mwh；为t时刻电池储能系统的充、放电功率，单位mw，nc，bess、nd，bess为电池储能系统的充、放电效率，单位％。

16、进一步的，所述综合能源系统的经济优化模型为：

17、min mtotal＝mom+mbuy (4)

18、其中，mtotal为总成本，mom为运行维护成本，mbuy为购电成本。

19、进一步的，所述步骤2中配置经济优化模型的约束包括功率平衡约束与设备运行约束：

20、功率平衡约束如下式(5)所示：

21、

22、式中，分别为第i时刻光伏发电机组输出电功率、风力发电机组输出电功率、蓄电池放电功率和充电功率、主网购电功率、以及弃电功率，单位kw；为在第i时刻用户电负荷；

23、蓄电池充、放电功率上下限约束：

24、

25、

26、式中，为最大时刻蓄电池放电功率和充电功率，为最小时刻蓄电池放电功率和充电功率；

27、蓄电池容量上下限约束：

28、

29、式中，ecap，ess为电池额定容量。

30、进一步的，所述状态变量s设计：

31、在风光储耦合碳捕集利用封存系统中，状态应选取最能反应系统目前运行状况，与调度变量直接关联的环境指标，选取时间t、电负荷需求pload、风力发电pwind、光伏发电ppv、蓄电池电量状态sbat、当前时刻电价ce，

32、状态变量s表示为下式(9)：

33、s＝[t pload pwind ppv sbat ce]。 (9)

34、进一步的，所述调度变量a选取：

35、调度变量应选取直接影响奖励及状态的变量，因此输入当前t时刻储能系统充放电量δpc、电网购电电量pbuy，将储能系统充放电量统一为一个增量变量，数值为正为放电，数值为负为放电，

36、a＝[δpc pbuy]。 (10)

37、进一步的，所述奖励函数r具体为：

38、智能体的优化目标为在可行域中找到经济最优解，因此奖励设置如下式(11)分为经济性指标奖励以及越限惩罚两部分组成，

39、r＝-kopemtot本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的综合能源系统的优化调度方法，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的综合能源系统的优化调度方法其特征在于，步骤1建立综合能源系统模型的机理中，各个模型搭建如下：

3.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述综合能源系统的经济优化模型为：

4.根据权利要求1所述的基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述步骤2中配置经济优化模型的约束包括功率平衡约束与设备运行约束：

5.根据权利要求1所述的基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述状态变量S设计：

6.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述调度变量A选取：

7.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述奖励函数r具体为：

8.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，除了蓄电池充放电量以及电网购电电量的硬约束，

9.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述决策网络依据状态变量选择调度变量，决策网络的策略函数通过确定性策略梯度算法进行更新：

10.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述评估网络是基于当前时刻的状态变量、当前时刻调度变量、当前时刻运行成本、下一时刻状态变量进行的能源系统调度价值评估，评估网络由Critic网络和Critic目标网络组成，根据贝尔曼方程，状态价值函数在最优情况下对应最优策略，

11.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述TD3训练网络结构引入了两个评估网络，通过双网络的比较，选取两个估值网络中的保守估值进行作为估计值：

12.根据权利要求11所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，将式(15)、(16)整合可以得到时间差分的目标值：

...

【技术特征摘要】

1.一种基于深度强化学习的综合能源系统的优化调度方法，其特征在于，包括：

2.根据权利要求1所述的基于深度强化学习的综合能源系统的优化调度方法其特征在于，步骤1建立综合能源系统模型的机理中，各个模型搭建如下：

3.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述综合能源系统的经济优化模型为：

5.根据权利要求1所述的基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述状态变量s设计：

6.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述调度变量a选取：

7.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，所述奖励函数r具体为：

8.根据权利要求1所述基于深度强化学习的综合能源系统的优化调度方法，其特征在于，除了蓄电...

【专利技术属性】
技术研发人员：章哲玮，蔺琪蒙，王立公，陈宏伟，
申请(专利权)人：国能江苏新能源科技开发有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人