一种基于深度强化学习的集群系统预防性维修方法技术方案

技术编号:30909199 阅读:16 留言:0更新日期:2021-11-22 23:55
本发明专利技术公开了一种基于深度强化学习的集群系统预防性维修方法,解决了集群系统在长期运行过程中的预防性维修问题。步骤如下:1根据退化状态建立集群系统“单一系统

【技术实现步骤摘要】
一种基于深度强化学习的集群系统预防性维修方法
所属

[0001]本专利技术提供一种基于深度强化学习的集群系统预防性维修方法,尤其涉及一种考虑集群系统各组成单元的退化特征,基于深度强化学习算法,实现求解集群系统预防性维修问题的多单元集群维修决策方法,属于维修性工程领域。

技术介绍

[0002]预防性维修是指考虑产品退化状态,提前采取维修措施预防故障发生。目前基于状态的预防性维修正逐渐取代基于时间的预防性维修,集群系统由多个单一系统构成,具有高容错性,在军民领域得到广泛应用。近年来集群系统的预防性维修问题得到较大重视,但现有研究对集群组成系统和单元的大规模特征与退化状态特征,以及问题整体的非确定性多项式困难特征,考虑不充分。需要给出考虑集群各组成系统及单元退化状态的高效预防性维修方法
[0003]本专利技术基于深度神经网络预测模型和蒙特卡洛树搜索算法,专利技术了一种基于深度强化学习的新型预防性维修方法,解决了集群系统长期工作运行过程中的预防性维修问题。

技术实现思路

[0004]本专利技术的目的是为长期工作运行过程中的集群系统提供一种新型的预防性维修方法,旨在解决传统预防性维修方法未充分考虑集群系统各组成单元的大规模集群特征与退化状态特征,以及问题整体的非确定性多项式困难特征。
[0005]本专利技术提出了一种基于深度强化学习的预防性维修方法,该方法综合应用神经网络预测模型和蒙特卡洛树搜索算法生成预防性维修策略,主要包含以下步骤:
[0006]步骤一:集群系统退化状态描述。
[0007]将集群系统预防性维修策略视为多组成单元的集群维修决策问题展开研究。首先,考虑集群系统由M个单一系统组成,则该集群系统的单一系统集合可以表示为K={k1,k2,

,k
m
,

,k
M
};考虑各单一系统由N个单元组成,则其单元集合可以表示为U={u1,u2,

,u
n
,

,u
N
}。以此为基础,考虑各单元的剩余寿命(Remaining Useful Life,RUL),建立M
×
N的“单一系统

单元”状态矩阵S
RUL
,其中矩阵元素表示单元u
(m,n)
在长期运行过程中的剩余寿命的退化状态。
[0008]步骤二:集群系统可靠性评估。
[0009]定义R为全寿命周期的可靠度,当集群系统运行至时间τ时,单元u
(m,n)
的可靠度可以表示为R
mn
(τ),同时单一系统k
m
的可靠度可以表示为R
m
(τ),集群系统的“单一系统

单元”的集群可靠度可以表示为R
fleet
(τ)。
[0010]步骤三:基于深度神经网络的预防性维修策略预测。
[0011]设计一个深度残差网络(Residual Networks,ResNet)通过提取集群系统的集群剩余寿命特征,预测“单一系统

单元”集群的先验维修概率矩阵p和先验集群预防性维修策
略价值v。
[0012]ResNet输入特征矩阵:即当前的“单一系统

单元”集群剩余寿命状态矩阵S
RUL
。ResNet输出信息:包括“单一系统

单元”集群的先验集群维修概率p和一个先验集群预防性维修策略价值v。
[0013]选用的神经网络结构:包括卷积模块、残差模块、ReLU函数模块等。神经网络的表达式为f
θ
(S
RUL
)=(p,v)。
[0014]步骤四:基于蒙特卡洛树搜索算法的预防性维修策略搜索。
[0015]以提高集群系统“单一系统

单元”集群退化程度的恢复水平,以维修费用作为约束,构建预防性维修策略的优选迭代体系。设计一种基于深度强化学习的预防性维修决策框架,利用神经网络提供先验信息,通过蒙特卡洛树搜索算法搜索优化的预防性维修策略。
[0016]蒙特卡洛树搜索算法利用步骤三中ResNet输出的先验集群维修概率p作为搜索权重,避免直接全局搜索预防性维修策略的解空间,导致出现组合爆炸问题。基于先验概率p进行策略空间的局部搜索同样能得到全局最优预防性维修策略,依据树搜索得到优化的维修概率矩阵π,执行当前最优维修动作a,当前的“单一系统

单元”集群剩余寿命S
RUL
转移至下一时刻集群状态,蒙特卡洛树搜索算法的表达式为MCTS
θ
(S
RUL
,p,v)=(π,a)。
[0017]步骤五:检验集群系统恢复程度。
[0018]预防性维修策略生成过程的t时刻,通过执行步骤三和步骤四,得到当前时刻的最佳维修动作,执行后集群状态转移至下一时刻,基于执行维修动作后的集群状态,按照步骤二中的可靠性评估方法,计算集群系统当前的可靠度,从而检验可靠性水平相对于执行预防性维修之前的恢复程度。
[0019]若未满足恢复要求,返回步骤三,继续执行预防性维修策略生成过程。若T时刻的集群剩余寿命满足恢复要求,则经过执行预防性维修策略生成过程的T次最佳维修动作,生成了一个完整的预防性维修策略。
[0020]由奖励函数计算一个奖励值z对预防性维修策略生成过程进行评估,基于奖励值和预防性维修策略生成过程产生的T个维修动作,作为最新的强化学习经验参数,ResNet以最小化预测的评估值v与策略生成过程结束的奖励值z之间的误差,以及最大化先验维修概率p与优化的维修概率π之间的相似度为目标,利用梯度下降方法训练网络参数θ,得到一个新的ResNet用于下一次预防性维修策略生成过程。通过训练神经网络可为蒙特卡洛树搜索提供更好的搜索方向。
[0021]步骤六:输出预防性维修策略。
[0022]由预防性维修策略生成过程存储的一系列最佳维修动作{a1,a2,

,a
T
}生成一个完整的预防性维修策略,可以表示为
[0023]PM=f
PM
(a1,a2,

,a
T
)=1
×
a1+2
×
a2+

+T
×
a
T
[0024]执行预防性维修策略之后,基于集群系统的“单一系统

单元”集群剩余寿命计算集群系统可靠性水平的恢复程度。
附图说明
[0025]图1为本专利技术中基于深度强化学习的预防性维修架构框图
[0026]图2为本专利技术中集群系统状态特征提取的神经网络模型
[0027]图3为本专利技术中遍历预防性维修策略的蒙特卡洛树搜索算法模型图
具体实施方式
[0028]为使本专利技术的技术方案、特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于深度强化学习的集群系统预防性维修方法,其特征在于:它包含以下步骤:第一步:集群系统退化状态描述:根据退化状态建立集群系统“单一系统

单元”集群的剩余寿命状态矩阵。第二步:集群系统可靠性评估:基于集群系统“单一系统

单元”集群剩余寿命状态,评估集群系统可靠性水平。第三步:基于深度神经网络的预防性维修策略预测:设计一个神经网络预测集群系统“单一系统

单元”集群的先验维修概率和先验维修策略价值。第四步:基于蒙特卡洛树搜索算法的预防性维修策略搜索:构建预防性维修策略求解算法架构,遍历预防性维修策略解空间,选择一系列最佳维修动作。第五步:检验集群系统恢复程度:基于集群剩余寿命状态的变化计算集群系统可靠度,然后检验集群系统恢复程度。第六步:输出预防性维修策略:由预防性维修策略求解过程存储的一系列最佳维修动作生成一个完整的预防性策略。通过以上步骤,给出了一种基于深度强化学习的预防性维修方法,可以解决集群系统长期运行过程中进行“单一系统

单元”集群的预防性维修问题。2.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第一步中所述的“集群系统退化状态描述”中,基于集群系统“单一系统

单元”集群剩余寿命状态,评估集群系统可靠性水平。将集群系统预防性维修策略视为多组成单元的集群维修决策问题展开研究。首先,考虑集群系统由M个单一系统组成,则该集群系统的单一系统集合可以表示为K={k1,k2,

,k
m
,

,k
M
};考虑各单一系统由N个单元组成,则其单元集合可以表示为U={u1,u2,

,u
n
,

,u
N
}。以此为基础,考虑各单元的剩余寿命(Remaining Useful Life,RUL),建立M
×
N的“单一系统

单元”状态矩阵S
RUL
,其中矩阵元素表示单元u
(m,n)
在长期运行过程中的剩余寿命的退化状态。3.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第二步中所述的“集群系统可靠性评估”中,基于集群系统“单一系统

单元”集群剩余寿命状态,评估集群系统可靠性水平。定义R为全寿命周期的可靠度,当集群系统运行至时间τ时,单元u
(m,n)
的可靠度可以表示为R
mn
(τ),同时单一系统k
m
的可靠度可以表示为R
m
(τ),集群系统的“单一系统

单元”的集群可靠度可以表示为R
fleet
(τ)。4.根据权利要求1所述的基于深度强化学习的集群系统预防性维修方法,其特征在于:在第三步中所述的“基于深度神经网络的预防性维修策略预测”中,设计一个深度残差网络(Residual Networks,ResNet)通过提取集群系统的集群剩余寿命特征,预测“单一系统

单元”集群的先验维修概率矩阵p和先验集群预防性维修策略价值v。ResNet输入特征矩阵:即当前的“单一系统
...

【专利技术属性】
技术研发人员:冯强吴其隆任羿王自力孙博杨德真
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1