一种基于强化学习的配电网运行策略智能生成方法及设备技术

技术编号:38390499 阅读:10 留言:0更新日期:2023-08-05 17:43
本发明专利技术涉及一种基于强化学习的配电网运行策略智能生成方法,包括如下步骤:定义智能体的运行环境及参数因子;构建基于强化学习的智能体的训练样本池;制定基于强化学习的智能体的网络模型结构;执行基于强化学习的智能体的训练和评估;应用智能体实时生成下一时刻配电网运行调控策略。本发明专利技术还设计一种运行策略智能生成设备。本发明专利技术的优点在于:基于所有机组和负荷的有功实际出力数据,新能源机组有功预测出力数据等配电网历史运行数据,设置了线路越限情况、新能源机组消纳量、机组运行费用等奖励项,运用Deep Q Network深度强化学习算法,在电网仿真环境中训练出智能体,能够快速给出电网运行方式调整策略。给出电网运行方式调整策略。给出电网运行方式调整策略。

【技术实现步骤摘要】
一种基于强化学习的配电网运行策略智能生成方法及设备


[0001]本专利技术涉及领域电网调度运行领域,尤其涉及一种基于强化学习的配电网运行策略智能生成方法。

技术介绍

[0002]电网运行方式制定是保证电网调度安全稳定运行的重要环节。通常的做法是运行专家利用典型的运行方式,对电网进行建模与安全稳定分析,依据少量的仿真样本寻找描述和影响电网安全的关键特征,并结合专家经验离线制定运行规则,包括编制电网断面及其极限传输容量。然而,这一方式存在的问题在于:1)依赖专家经验、时效性差;2)无法适应复杂多变的电网运行方式,存在安全隐患;运行规则过于保守、经济性差。随着高比例新能源、储能以及海量柔性负荷广泛接入,电力系统的技术基础、控制基础和运行机理发生深刻变化,配电网能源单向流动模式改为潮流与故障电流双向流动模式,运行方式的复杂性和波动性不断攀升,基于传统的机理建模及分析方法难以满足新能源、柔性负荷等大规模接入后调控需求,采用人工智能技术智能生成配电网运行策略辅助调度决策变得非常迫切。
[0003]公开号为CN112580801A的中国专利技术专利“一种强化学习训练方法及基于强化学习的决策方法”。该方法提出了一种基于历史状态数据的强化学习模型训练方法,并且应用于航空开舱决策,通过多个平行航班的销售量、剩余座位量、多个平行航班距离起飞的时间以及多个舱价位数据,训练出航空开舱决策模型,从而根据航班信息智能生成航空开舱决策数据。该方法通过增加强化学习模型训练样本量,提高强化学习效果,提高动态决策规划结果的准确性,但是应用于航空领域,然后电网运行调度领域业务复杂,实时性、稳定性要求高,涉及的数据不同,强化学习模型训练方法及应用也会不同。
[0004]公开号为CN113098007A的中国专利技术专利“基于分层强化学习的微电网分布式在线调度方法及系统”。该方法基于实时电价信息、每一个微电网的总交易电量、可调度机组在每一个微电网中的功率输出、电池储能系统的输出功率以及充/放电效率数据,训练强化学习模型,智能生成微电网整体运行成本最低的最优调度策略。但是该方法以微电网整体运行成本最低为目标,为考虑微电网新能源消纳比例、碳排放等因素,不能有效地支撑“碳达峰、碳中和”目标落地实现。
[0005]公开号为CN110929948A的中国专利技术专利“基于深度强化学习的完全分布式智能电网经济调度方法”。该方法通过获取网络拓扑结构,建立基于负荷分配和机组组合的经济调度模型,运用深度强化学习模型获得电网经济调度最优解,从而实现智能电网经济调度运行。该方法不仅能够在数据量大、网络结构复杂的智能电网环境下,实现经济调度最优化,而且不依赖于明确的目标函数,能适应分布式能源的“即插即用”特性。但,该方法仍然以电网经济调度运行为目标,为考虑“碳达峰、碳中和”目标下,在确保电网安全稳定运行前提下,即能经济运行又需消纳高比例新能源,从而实现节能降碳目标。
[0006]综上所述,目前,电网运行策略制定主要还是依靠行业专家基于自身经验,结合电网历史运行数据和实时运行数据进行策略制定,该方式一是依赖专家经验、时效性差,二是
无法适应复杂多变的电网运行方式,存在安全隐患;三是运行规则过于保守、经济性差。也有运用人工智能技术(如机器学习、强化学习)辅助电网经济调度运行,该方式在保障电网安全稳定运行前提下,以电网运行的经济性为调度目标,为考虑“碳达峰、碳中和”目标下,新能源广泛接入后新能源高比例消纳、节能减排等因素。

技术实现思路

[0007]为了解决上述问题,本专利技术专利提出的一种基于强化学习的配电网运行策略智能生成方法,面对高比例新能源、储能以及海量柔性负荷广泛接入配电网,基于配电网收敛的交流潮流断面及预测数据,综合考虑电网安全、低碳、经济三大因素,利用强化学习技术实现配电网源网荷储协同控制决策和运行方式自动调整,解决基于传统的机理建模及分析方法难以满足新能源、柔性负荷等大规模接入后配电网安全、低碳、经济运行调控需求问题,有效地支撑“碳达峰、碳中和”目标落地实现。
[0008]为实现上述目的,本专利技术采用以下技术方案:
[0009]一种基于强化学习的配电网运行策略智能生成方法,包括如下步骤:定义智能体的运行环境及参数因子;构建基于强化学习的智能体的训练样本池;制定基于强化学习的智能体的网络模型结构;执行基于强化学习的智能体的训练和评估;应用智能体实时生成下一时刻配电网运行调控策略。
[0010]更优地,所述定义智能体的运行环境及参数因子,具体为:基于配电网历史运行数据,梳理并定义在所述智能体中其状态空间、动作空间、奖励的影响集。
[0011]更优地,所述状态空间集合S由电网运行状态变量组成,表达为:S=
[0012]{s|s
t
=(G
pt
,G
qt
,L
pt
,L
qt
,GL
t
,CRGM
pt
,NRGM
pt+1
,NL
pt+1
,...)},其中包括机组有功出力G
pt
、机组无功出力G
qt
、负荷有功L
pt
、负荷无功L
qt
、电网损耗GL
t
、当前时间步新能源机组的最大有功出力CRGM
pt
、下一时间步新能源机组的最大有功出力NRGM
pt+1
、下一时间步的负荷预测值NL
pt+1
,所述状态空间集合S是根据实际配电网运行调度决策所涉及的状态变量决定,且可调整。
[0013]更优地,所述动作空间集合A由调控动作离散量α
i
组成,表达式为:A={α1,α2,

,α
n
}。
[0014]更优地,所述奖励集合R由正奖励和负奖励组成,其中正奖励包括线路越限情况和新能源机组消纳量,所述负奖励包括平衡机功率越限、机组运行费用、无功出力越限以及节点电压越限。
[0015]更优地,所述智能体的网络模型结构为:智能体是由两个神经网络模块组成,包括行动网络Q(s
t
,α
t
,θ)和评估网络Q(s
t
,α
t
,θ

),其中,θ和θ

网络参数;在模型训练的过程中,行动网络根据环境当前状态s
t
,选择一个具有最大价值函数的动作α
t+1
,评估网络会对选的动作进行评估,计算出在下一个状态s
t+1
选择动作α
t+1
得到的值Q;进一步计算目标值计算公式为:然后计算误差函数L(θ),并通过梯度下降法更新行动网络参数θ,每个固定迭代步数,将行动网络参数同步给评估网络;误差函数计算公式为:
[0016][0017]更优地,所述基于强化学习的智能体的模型评估方式为:利用电网仿真模拟器验证所述智能体的决策有本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的配电网运行策略智能生成方法,其特征在于:包括如下步骤:定义智能体的运行环境及参数因子,所述智能体为配电网运行策略智能生成模型;构建基于强化学习的智能体的训练样本池;制定基于强化学习的智能体的网络模型结构;执行基于强化学习的智能体的训练和评估;应用智能体实时生成下一时刻配电网运行调控策略。2.根据权利要求1所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述定义智能体的运行环境及参数因子,具体为:基于配电网历史运行数据,梳理并定义在所述智能体中其状态空间、动作空间、奖励的参数集合。3.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述状态空间集合S由电网运行状态变量组成,所述状态空间集合S是根据实际配电网运行调度决策所涉及的状态变量决定,且所包含的状态变量可调整。4.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述动作空间集合A由调控动作离散量α
i
组成,表达式为:A={α1,α2,...,α
n
}。5.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述奖励集合R由正奖励和负奖励组成,其中正奖励包括线路越限情况和新能源机组消纳量,所述负奖励包括平衡机功率越限、机组运行费用、无功出力越限以及节点电压越限。6.根据权利要求2所述的一种基于强化学习的配电网运行策略智能生成方法,其特征在于:所述智能体的网络模型结构为:智能体是由两个神经网络模块组成,包括行动网络和评估网络其中,θ和θ

网络参数;在模型训练的过程中,行动网络根据环境当前状态s
t
,选择一个具有最大价值函数的动作α
t+1
,评估网络会对选的动作进行评估,计算出在下一个状态s
t+1
选择动作α
t+1
得到的值Q;进一步计算目标值Υ
tDQN
,计算公式为:然后计算误差函数L(θ),并...

【专利技术属性】
技术研发人员:伍臣周李强赵峰庄莉王秋琳宋立华
申请(专利权)人:国网信息通信产业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1