一种基于强化学习的园区新型电力系统决策控制的方法技术方案

技术编号：40470655 阅读：8 留言：0更新日期：2024-02-26 19:08

本发明专利技术公开了一种基于强化学习的园区新型电力系统决策控制的方法，包括以下步骤：步骤1：获取园区新型电力系统历史数据，对数据进行清洗和预处理，去除异常数据，补充缺失数据；步骤2：根据历史数据建立园区新型电力系统设备模型；步骤3：设计园区新型电力系统决策控制强化学习框架，确定状态空间、动作空间和奖励函数；步骤4：基于TD3算法训练园区新型电力系统决策控制模型；步骤5：将训练好的模型部署在虚拟电厂机制下的新型园区电力系统中，实时调整园区电力系统的控制策略。本发明专利技术能够更好地适应园区新型电力系统内部连续变化的情况，从而实现更高的能源利用效率和稳定的运行状态。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及虚拟电厂机制下的园区新型电力系统控制，具体涉及一种基于强化学习的园区新型电力系统决策控制的方法

技术介绍

1、园区新型电力系统是以承载实现降低碳排放，推动高质量发展的内在要求为前提，确保能源电力安全为基本前提、以满足经济社会发展电力需求为首要目标、以最大化消纳新能源为主要任务，以坚强智能电网为枢纽平台，以源网荷储互动与多能互补为支撑，具有清洁低碳、安全可控、灵活高效、智能友好、开放互动基本特征的电力系统。然而，园区新型电力系统的运行和控制面临着复杂的挑战，包括能源管理、负载平衡、能源交易等方面的决策。在园区新型电力系统决策控制领域，强化学习已经成为一项重要方法，其中，深度确定性策略梯度(deep deterministic pol icy gradient，ddpg)算法已经被广泛应用于该领域，但是传统的ddpg算法存在对于超参数和网络结构的选择相对敏感、难以达到全局最优解和收敛速度较慢等缺点。

技术实现思路

1、本专利技术的目的是为了克服现有技术的不足，提供一种基于强化学习的园区新型电力系统决策控制的方法，能够实现高效的园区电力管理。

2、实现上述目的的一种技术方案是：一种基于强化学习的园区新型电力系统决策控制的方法，包括以下步骤：

3、步骤1：获取园区新型电力系统历史数据，对数据进行清洗和预处理，去除异常数据，补充缺失数据；

4、步骤2：根据历史数据建立园区新型电力系统设备模型；

5、步骤3：设计园区新型电力系统决策

6、步骤4：基于td3算法训练园区新型电力系统决策控制模型；

7、步骤5：将训练好的模型部署在虚拟电厂机制下的新型园区电力系统中，实时调整园区电力系统的控制策略。

8、进一步的，步骤2的实现方法为：

9、步骤2.1：对能量存储系统进行建模；

10、步骤2.2：对用户系统进行建模，定义三个关键模块，包括能源消耗模块、价格管理模块和用户管理模块；

11、步骤2.3：对温度控制系统进行建模，包括温度控制模块和温度控制设备；

12、步骤2.4：对分布式能源系统进行建模，引入参数类和模型类用来描述和管理能量生成设备，参数类用于存储与能量生成设备相关的参数信息，模型类负责从数据文件中读取能源产生数据，并支持能源管理。

13、进一步的，步骤2.1具体包括，考虑以下关键要素：

14、(1)当前储存的能量cse；

15、(2)最大储能容量mesc；

16、(3)剩余容量与其完全充电状态的容量比值soc，通过储存的能量与最大储能容量的比值来计算：

17、

18、(4)充电效率ce，即从电网充电到储能系统的能量损失比率；

19、(5)放电效率de，即从储能系统放电到负载的能量损失比率；

20、(6)最大充电功率mlcp，充电功率限制公式为：

21、

22、(7)最大放电功率mldp，放电功率限制公式为：

23、mldp＝cse*de。

24、进一步的，步骤2.2中，定价管理器验证公式为：

25、

26、其中，epl表示有效电价水平，opt表示超定价阈值，pr icelevel表示电价水平，accumulatedpricelevels表示累积电价水平，当累计电价水平超过阈值时，电价水平将被限制为0，以防止过高的电价波动。

27、进一步的，步骤2.2中，用户消耗和收益计算公式为：

28、ec＝eccmpp

29、其中，ec表示能量消耗，eccmpp表示用户管理模块根据电价和电价水平计算得出的能量消耗；

30、profit＝ec×actualprice

31、其中，profit表示收益，actual price表示实际电价。

32、进一步的，步骤2.3中，温度控制模块的更新公式为：

33、nit＝oldt+iotd*tma+tclh

34、其中，nit表示新的室内温度，oldt表示旧的室内温度，iotd表示为室内外温度差，tma表示为空气热质量，tclh表示为温度控制设备给予的温度控制。

35、进一步的，步骤2.3中，温度控制设备的能量存储状态ns为：

36、

37、其中，it表示为室内温度，mit表示为最小温度，mat表示为最大温度。

38、进一步的，步骤3的实现方法为：

39、步骤3.1：确定状态空间s＝[prei(t),li(t),γ(t),φ(t)]，对于园区新型电力系统模型，环境提供给智能体的信息包括：发电量(pre,i(t))、分时电价(γ(t))、负荷需求(li(t))和电储能的储能情况(φ(t))；在园区新型电力系统模型中，智能体通过选择适当的动作来调整系统的行为；

40、步骤3.2：确定动作空间a＝[tclaction,pricelevel,engf,excess]；

41、其中，tcl_action表示温度控制设备动作，price_level表示价格动作，eng_f表示能源不足动作，excess表示能源释放动作；

42、步骤3.3：确定奖励函数。

43、进一步的，奖励函数为：

44、r＝-(ce+cf+dp+db)

45、其中，ce表示购电成本，cf表示天然气成本，dp表示能量不平衡惩罚，db表示储能过放或过充惩罚。

46、进一步的，步骤4的实现方法为：

47、首先，初始化网络，td3算法共使用了6个神经网络；一个策略网络θ，两个价值网络ω1与ω2，以及与之对应的目标网络θ’、ω1’、ω2’；

48、价值函数的更新目标为：

49、y＝r+γmini＝1,2qwi′(sj+1,πθ(sj+1))

50、其中，r表示奖励，γ表示折扣因子，wi’表示目标神经网络的参数，θ为当前策略神经网络的参数，sj+1为新的状态，π为策略；

51、更新策略网络和价值网络，策略网络采用延迟更新策略，即价值网络每更新2次，策略网络更新1次：

52、ω1＝τω1’+(1-τ)ω1

53、ω2＝τω2’+(1-τ)ω2

54、θ＝τθ’+(1-τ)θ

55、价值函数的更新目标每次都添加一个随机噪声使价值函数更加平滑：

56、y＝r+γmini＝1,2qwi′(sj+1,πθ(sj+1)+ε)

57、∈～clip(n(0，σ)，-c，c)

58、其中，ε表示随机噪声。

59、本专利技术通过建立园区新型电力系统控制模型，考虑能源生产、负载消耗、储能系统等因素，并利用双延迟确定性策略优化算法(tw本文档来自技高网...

【技术保护点】

1.一种基于强化学习的园区新型电力系统决策控制的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2的实现方法为：

3.根据权利要求2所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2.1具体包括，考虑以下关键要素：

4.根据权利要求2所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2.2中，定价管理器验证公式为：

5.根据权利要求2所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2.2中，用户消耗和收益计算公式为：

6.根据权利要求2所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2.3中，温度控制模块的更新公式为：

7.根据权利要求2所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2.3中，温度控制设备的能量存储状态NS为：

8.根据权利要求1所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤3的实现方法为：

9.根据权利要求8所述的一种基于强化学习的园区新型电力系统决策控制的方法，其特征在于：奖励函数为：

10.根据权利要求1所述的一种基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤4的实现方法为：

...

【技术特征摘要】

1.一种基于强化学习的园区新型电力系统决策控制的方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2的实现方法为：

3.根据权利要求2所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2.1具体包括，考虑以下关键要素：

4.根据权利要求2所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2.2中，定价管理器验证公式为：

5.根据权利要求2所述的基于强化学习的园区新型电力系统决策控制的方法，其特征在于，步骤2.2中，用户消耗和收益计算公式为：

6...

【专利技术属性】
技术研发人员：陈明，项肖毅，王钰楠，曹袖，赵顺麟，赵卓良，刘书琪，王琮，何雪梅，
申请(专利权)人：国网上海市电力公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人