一种基于强化学习的电力设备检修决策生成方法技术

技术编号:30766124 阅读:37 留言:0更新日期:2021-11-10 12:25
一种基于强化学习的电力设备检修决策生成方法涉及电力设备检修技术领域,解决了现有基于强化学习的建模策略的方式需要大量的数据且数据利用率不高的问题,包括:计算第一割集并据此计算电力设备引起电网停电损失的第一权重;将电力设备检修决策生成问题建模为一个马尔可夫决策过程,定义电力设备的运行状态;应用强化学习方法求解马尔可夫决策过程得到最优策略和最优策略的价值矩阵,第一权重加权到强化学习的电网的整体运行损失中,强化学习以最小化电网的整体运行损失为目标;计算第二割集并据此计算第二权重,加权到电网的整体运行损失中,改进最优策略。本发明专利技术够间接实现多个电力设备之间的通信,数据利用率高,在专业领域上的应用门槛较低。业领域上的应用门槛较低。业领域上的应用门槛较低。

【技术实现步骤摘要】
一种基于强化学习的电力设备检修决策生成方法


[0001]本专利技术涉及电力设备检修
,具体涉及一种基于强化学习的电力设备检修决策生成方法。

技术介绍

[0002]电力设备检修是指在电路运行过程中,对设备进行检修以确保设备的良好运行状态,从而避免设备损坏对电网的运行产生较大的影响。现阶段电力设备检修的策略往往是通过人工决策,技术人员往往对电力设备管理有丰富的经验,并且有很多电力专业知识,其通过对设备状态进行评分来主观判断是否其需要检修。大部分工作主要是利用在线检测、离线检测和定期解体检测方法进行人工决策,然而,以上策略都是人工策略,往往要求技术人员需要丰富的经验,而且很多策略都是类似“制定检修策略”、“完善技能培训”等针对人的策略,不仅低效而且迁移能力很差。除了通过人工决策得到的检修的策略,目前电力设备检修方法还根据设备的运行状态进行评分,并根据检修分数对设备排序进行检修。基于人工的变电检修决策方法需要很多的专业知识并且对电路的运行状态有比较多的了解,基于设备评分的方法,往往也需要人工制定分数,并且迁移能力较差。
>[0003]电力设本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的电力设备检修决策生成方法,其特征在于,包括如下步骤:步骤一、根据电网中所有电力设备的连接与导通情况,计算能够使当前电网停电的所有第一割集;根据第一割集计算电力设备引起电网停电损失的静态权重;步骤二、将电力设备检修决策生成问题建模为一个马尔可夫决策过程,根据电网中所有电力设备的信息,定义电力设备有可能出现的若干个表示电力设备损坏程度的运行状态,若干个表示电力设备损坏程度的运行状态构成马尔可夫决策过程的状态集合;应用强化学习方法求解马尔可夫决策过程得到最优策略和最优策略的价值矩阵,静态权重加权到强化学习的电网的整体运行损失中,强化学习以最小化被加权静态权重的电网的整体运行损失为目标;步骤三、根据电网待检修时其中所有电力设备的连接与导通情况,计算能够使当前电网停电的所有第二割集,根据第二割集计算电力设备引起电网停电损失的动态权重;静态权重加权到电网的整体运行损失中,以最小化被加权动态权重的电网的整体运行损失为目标,利用被加权动态权重的电网的整体运行损失和步骤二得到的价值矩阵改进最优策略,选取电网的整体运行损失最小的动作作为待检修电网的最终检修策略。2.如权利要求1所述的一种基于强化学习的电力设备检修决策生成方法,其特征在于,所述步骤一还包括获取电网中电力设备的检修损失R
M
和损坏损失R
F
的步骤,电网中电力设备的检修损失包括电力设备检修引起的电力设备个体的经济损失R
M,1
和电力设备检修引起电网停电的经济损失R
M,2
,电网中电力设备的损坏损失包括电力设备损坏引起的电力设备个体的经济损失R
F,1
和电力设备损坏引起电网停电的经济损失R
F,2
,步骤二所述的电网的整体运行损失为:其中,t表示运行时刻,N
T
表示电网运行总时长。3.如权利要求1所述的一种基于强化学习的电力设备检修决策生成方法,其特征在于,所述第一割集和第二割集均为点割集,电力设备作为点割集的元素,点割集是指当点割集内的所有电力设备损坏时电网会出现停电,且不存在点割集的真子集内的所有电力设备损坏时电网会出现停电。4.如权利要求1所述的一种基于强化学习的电力设备检修决策生成方法,其特征在于,所述步骤二中应用强化学习方法求解马尔可夫决策过程得到最优策略和最优策略的价值矩阵包括如下步骤:步骤2.1、初始化电力设备的价值矩阵V得到初始化的价值矩阵,初始化电力设备的策略π得到初始化的策略;步骤2.2、利用静态权重对电网的整体运行损失进行加权,以最小化被静态权重加权的电网的整体运行损失为目标,根据被静态权重加权的电网的整体运行损失、初始化的策略和初始化的价值矩阵,利用贝尔曼方程更新价值矩阵;步骤2.3、以最小化被静态权重加权的电网的整体运行损失为目标,根据被静态权重加权的电网的整体运行损失和最新的价值矩阵、利用贪心算法更新策略;以最小化被静态权重加权的电网的整体运行损失为目标,根据被静态权重加权的电网的整体运行损失和最新
的...

【专利技术属性】
技术研发人员:李睿凡王泽元杜一帆熊永平刘子全
申请(专利权)人:国网江苏省电力有限公司电力科学研究院国网江苏省电力有限公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1