【技术实现步骤摘要】
一种基于深度强化学习的电力网络故障恢复动态决策方法
[0001]本专利技术属于电力网络
,具体涉及一种基于深度强化学习的电力网络故障恢复动态决策方法
。
技术介绍
[0002]电力网络是城市运行的基础生命线,为医疗
、
金融
、
通信
、
交通等重要基础设施的安全可靠运行提供持续稳定的电力供应,对人民生活和社会发展具有重要意义
。
近年来,频发的灾害事件严重威胁电力网络的稳定持续运行,造成了多次大面积停电事故,带来巨大的经济损失和恶劣的社会影响
。
例如,“9.5”6.8
级泸定地震造成5座
110kV
变电站停运,
46
条
10kV
以上线路跳闸,进而引发
40000
余户用户停电
。
灾害事件发生后,迅速根据线路损伤情况调度抢修队伍修复受损线路,实现电力网络功能的快速恢复,对维持城市稳定运营
、
减少财产损失具有重大的社会意义
。
[0003]现有的电力网络故障恢复策略均假设灾后线路受损状态完全已知,然而,由于线路状态检测技术水平限制
、
传感器误差
、
环境干扰等因素的影响,状态检测数据往往无法反映线路的真实健康状态,加之灾害事件对传感器和通信网络的破坏造成线路检测数据具有不完备性,对灾后电力网络的损伤评估不可避免存在不确定性,给电力网络故障恢复决策带来挑战
【技术保护点】
【技术特征摘要】
1.
一种基于深度强化学习的电力网络故障恢复动态决策方法,具体步骤如下:步骤
1、
采集电力网络的结构与灾害损伤信息,获取电力网络节点
、
线路数量以及节点间的连接关系,基于灾害损伤情况初步评估各线路损伤概率;步骤
2、
根据电力网络灾损情况和抢修队伍与巡检队伍状态信息建立损伤评估不确定性下电力网络故障恢复优化模型,并将其描述为部分可观测马尔科夫决策过程,定义状态空间
、
行动空间
、
状态转移概率函数
、
报酬函数和贝尔曼方程;步骤
3、
构建基于演员
‑
评论家框架的深度强化学习算法求解电力网络故障动态恢复策略,基于人工神经网络建立演员网络和评论家网络拟合最优电力网络恢复策略和值函数;步骤
4、
离线训练阶段与仿真模型交互采集训练数据集,运用近端策略优化方法训练智能体,优化神经网络参数;步骤
5、
在线决策阶段获取灾后电力网络的损伤评估情况,调用训练好的演员网络输出最优的电力网络故障巡检与恢复策略
。2.
根据权利要求1所述的一种基于深度强化学习的电力网络故障恢复动态决策方法,其特征在于,所述步骤2具体如下:在第
k
个决策时刻
t
k
时的决策变量为抢修队伍指派的抢修线路和巡检队伍指派的巡检线路,目标函数为负荷损失最小,具体表示为:其中,
Δτ
k
=
t
k+1
‑
t
k
表示第
k
个决策时刻与第
k+1
个决策时刻的时间差,
η
i,k
表示电力网络节点
i
在第
k
个决策时刻时的状态,
η
i,k
=1表示节点
i
处于正常运行状态,
η
i,k
=0表示节点
i
处于损伤状态,
P
i
表示节点
i
的需求,
N
表示电力网络所有节点的集合;模型中线路的真实状态未知,采用部分观测马尔科夫决策过程建模,线路
l
的健康状态由概率分布
b
l,k
=
Pr{x
l,k
=
1}
表征,
x
l,k
表示第
k
个决策时刻时线路
l
的真实状态,
b
l,k
表示第
k
个决策时刻时线路
l
的信念状态;部分观测马尔科夫决策过程的状态空间
、
行动空间
、
状态转移概率函数
、
报酬函数和贝尔曼方程的具体定义如下:
(a)
状态空间:在任意时刻决策时刻决策者将以各线路的信念状态
、
抢修队伍状态
、
巡检队伍状态为依据优化线路抢修与巡检策略,即部分观测马尔科夫决策过程的状态定义为其中,
b
k
表示第
k
个决策时刻时各线路的信念状态集合,表示第
k
个决策时刻时抢修队伍状态,表示第
k
个决策时刻时巡检队伍状态,表示抢修队伍第
k
个决策时刻时所在位置,表示巡检队伍第
k
个决策时刻时所在位置,表示抢修队伍完成第
k
个决策时刻时抢修任务所需时间,表示巡检队伍完成第
k
个决策时刻时巡检任务所需时间;抢修队伍与巡检队伍状态与定义如下:
当指派抢修队伍抢修线路
l
时,完成当前抢修任务所需时间定义为由当前位置到达线路
l
的路程时间与线路
l
的抢修时间之和,即:巡检队伍完成指派的线路
l
巡检任务所需时间为:其中,表示巡检队伍由当前位置前往线路
l
的路程时间,表示线路
l
的检测时间;
(b)
行动空间:在第
k
个决策时刻,部分观测马尔科夫决策过程的行动定义为抢修队伍与巡检队伍指派的抢修任务和巡检任务,即其中,表示第
k
个决策时刻选择的抢修行动,即第
k
个决策时刻选择哪一条线路进行抢修;表示第
k
个决策时刻时可选的抢修行动集合,
L
表示电力网络所有线路的集合,
b
l,k
表示第
k
个决策时刻时线路
l
的信念状态,
b
l,k
<1则表示抢修队伍只能选择未处于正常状态的线路进行抢修;表示第
k
个决策时刻选择的巡检行动,即第
k
个决策时刻选择哪一条线路进行巡检;表示第
k
个决策时刻时可选的巡检行动集合,0<
b
l,k
<1表示巡检队伍只能选择真实状态未知的线路进行巡检;
(c)
状态转移概率函数:部分观测马尔科夫决策过程的包括抢修任务和巡检任务执行后的线路信念状态转移
、
抢修队伍和巡检队伍的状态转移;线路信念状态转移概率函数为:其中,
I(
·
)
表...
【专利技术属性】
技术研发人员:刘宇,邓创,张钦,薛志航,王凯,张小玲,左琳,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。