一种基于深度强化学习的电网实时自适应决策方法技术

技术编号：32770975 阅读：21 留言：0更新日期：2022-03-23 19:25

本发明专利技术涉及一种基于深度强化学习的电网实时自适应决策方法，包括如下步骤：步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程；步骤2、研究SAC算法的基础原理，求解使得步骤1中MDP模型累计奖励值最大的策略；步骤3、设计基于IL中行为克隆的神经网络预训练方案，模拟专家经验，优化原始动作空间，提出IL

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的电网实时自适应决策方法

[0001]本专利技术属于深度强化学习
，涉及电网实时自适应决策方法，尤其是一种基于深度强化学习的电网实时自适应决策方法。

技术介绍

[0002]随着社会经济的不断发展、工业现代化的不断建设，能源需求不断增长，能源问题逐渐显露，迎合社会发展的需要，我国新能源产业发展得非常迅速.在新能源快速发展的背后，不可忽视的是新能源生产过剩的问题。在水力发电,风力发电这方面的新能源发展过程中，这些问题更为严重和突出，构建新能源消纳最大化的电网智能运行模式正成为一项超出人类专业知识的复杂任务。采用基于电网物理模型方法对电网进行实时控制有较强局限性，对于电网结构的变化和新型元素适应性不强，不能够满足电网发展需求。因此，考虑运用数据驱动方法进行优化，应用深度强化学习分析运行环境信息，自主获得智能控制策略，从而避免由于仿真过程模型简化和不确定性因素对电网控制效果的影响。
[0003]近年来，先进人工智能技术，尤其是深度强化学习技术不断进步，在多个领域如AlphaGo，AlphaStar，无人驾驶，机器人等成功应用，为解决高维度、高非线性、高时变性优化控制和决策问题提供了新的思路，同时为电网智能自主控制与决策提供了启示。深度强化学习能够学习怎么去做，怎样将状态和动作相互映射，也能够分析动作后的最大回报。深度强化学习是将深度学习和强化学习结合起来，实现从感知到动作一一对应的学习方法。深度学习主要分析环境信息，从中提取特征；强化学习将基于这些特征进一步分析环境特征，并选择对应动作，实现...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的电网实时自适应决策方法，其特征在于：包括如下步骤：步骤1、将新型电力系统机组自适应调度问题建模为马尔科夫决策过程；步骤2、研究SAC算法的基础原理，包括其5个网络即策略Actor网络、“软”V网络、2个“软”Q网络、目标V网络的更新流程和更新公式，并在SAC算法的基础上设计具体的算法参数及神经网络架构参数如折扣因子γ、温度系数α和网络宽度深度，求解使得步骤1中MDP模型累计奖励值最大的策略；步骤3、设计基于IL中行为克隆的神经网络预训练方案，模拟专家经验，优化原始动作空间，提出IL
‑
SAC算法，并基于IL
‑
SAC算法以及105个真实电网场景数据训练相应的电网优化调度智能体，在测试时该智能体应对不同的电网场景数据能够输出实时决策方案，实现新型电网系统的智能调控。2.根据权利要求1所述的一种基于深度强化学习的电网实时自适应决策方法，其特征在于：所述步骤1的具体步骤包括：用4维元组描述(S,A,P,R)，其中S表示该电网系统的状态集，A表示该电网系统的动作集，P：S
×
A
×
S
→
[0,1]表示状态转移概率，R:S
×
A
→
R表示奖励机制：(1
‑
1)状态变量S在t时段的Grid2Op电网系统状态s
t
∈S如式(1)所示其中，N,J,K分别表示该电网系统中有N条电力传输线，J个发电机组节点，K个负载节点；分别表示第j个发电机组节点上的有功出力、无功出力以及电压大小；表示第m个新能源机组节点上下一时刻的有功出力上限预测值，M表示J个机组种有M个新能源机组，M＜J；分别表示第k个负载节点上的有功需求、无功需求以及电压大小；表示第k个负载节点上下一时刻的有功需求预测值，以上变量都是可以通过Grid2Op电网系统仿真模型直接观测或调用的系统观测状态量；F
i
表示第i条电力传输线上的开断状态，是一个布尔值变量，当F
i
＝1时表示传输线为断开状态，当F
i
＝0时表示传输线为连接状态；rho
i
表示第i条电力传输线上的负载率；(1
‑
2)动作变量A动作变量即系统可调整变量，t时刻该系统的动作变量a
t
∈A如式(2)所示
其中，X表示该电网系统有X个可控机组；表示第x个机组节点上的有功出力调节值；表示第x个机组节点上的电压调整值；由于机组的有功出力和电压皆是连续变化的动作，本发明欲将其离散化；设离散化的最小间隔分别为Δ
Dp
和Δ
Dv
,则,则其中，y,z都为整数；根据式(3)和(4)，将动作变量a
t
离散化之后可以表示为(1
‑
3)状态转移概率P状态转移概率表示给定当前状态s
t
∈S以及动作a
t
∈A，状态从s
t
变换到s
t+1
的概率值，可以表示为采用深度强化学习算法从历史数据中采样从而隐式学习得到该概率分布；(1
‑
4)奖励机制R本发明设置了6个类型奖励r1,r2,r3,r4,r5,r6∈R，具体描述如下：1)根据输电线路越限情况设置奖励函数r1，其中，rho
max
表示N条传输线路上最大的rho值；2)根据新能源机组消纳总量设置正奖励函数r2，其中，表示新能源机组m当前时间步的实际有功出力，表示新能源机组m在当前
时间步的最大出力；3)根据平衡机组功率越限情况设置负奖励r3，，其中，U表示平衡机个数，表示平衡机u的实际有功出力，分别表示平衡机的出力的上下限；4)根据机组运行费用设置负奖励r4，其中，a
j
,b
j
,c
j
表示为对应不同机组的发电成本曲线系数；5)根据机组的无功出力越限情况设置负奖励r5，，其中，分别表示机组无功出力的上下限；6)根据机组节点和负载节点电压越限情况设置负奖励r6，，，
其中，分别表示各个发电机节点和负载节点电压的上下限；对上述奖励函数r4,r5,r6使用如下公式进行归一化处理r＝e
r
‑1ꢀꢀ
(17)综上所述，奖励函数r1的值域为(
‑
1，1)、r1的值域为[0,1]，r3,r4,r5,r6的域值为(
‑
1，0)，奖励函数r3属于该取值范围是由于该仿真环境中U＝1；故t时时刻的整体奖励函数r
t
∈R如下所示r

【专利技术属性】
技术研发人员：马世乾，陈建，商敬安，崇志强，王天昊，韩磊，吴彬，李昂，张志军，董佳，孙峤，郭凌旭，黄家凯，袁中琛，穆朝絮，韩枭赟，徐娜，
申请(专利权)人：国网天津市电力公司国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人