基于强化学习的航空发动机双参数指数劣化维护方法技术

技术编号:29968274 阅读:18 留言:0更新日期:2021-09-08 09:40
本公开揭示了一种基于强化学习的航空发动机双参数指数劣化维护方法,包括:建立航空发动机的多部件系统劣化模型,其为含有随机误差项的双参数指数模型,利用状态阈值的方式将部件状态离散化得到离散状态;每次维护行为维护后对劣化轨迹进行更新得到维护后的性能提升水平,其分为瞬时性能提升和维护后的劣化发展两部分,基于双参数指数模型及其维护后的性能提升水平,构建状态之间的转移概率矩阵;基于部件劣化的离散状态构建成状态空间,维护动作构建成动作空间;通过经济成本与停机损失成本建立成本函数,并计算期望奖励值;采用Q

【技术实现步骤摘要】
基于强化学习的航空发动机双参数指数劣化维护方法


[0001]本公开属于航空发动机多部件系统维修策略优化领域,尤其涉及一种基于强化学习的航空发动机双参数指数劣化维护方法。

技术介绍

[0002]随着航空技术的快速发展,对飞机发动机系统的安全性、可靠性、经济性以及可持续性提出了越来越高的要求,然而由此所导致的相应维护和保障成本也将逐渐提高。因此,如何为结构复杂的发动机多部件系统提供智能维护决策具有重要的研究意义。
[0003]系统结构复杂、部件众多,实现维护决策的难点在于如何考虑部件之间的相互制约以及成本的共同约束的同时,提高总体可靠性,降低投入成本。以往的维护决策研究大都注重于单部件系统,对系统中各部件实施单独定期维护,缺乏对多部件系统的智能维护研究,本研究基于强化学习框架对多部件系统进行综合维护,为复杂系统提供合理维护方案。通过双参数指数模型为各部件描述劣化过程,并在维护行为之后采用瞬时提升和劣化递增因子刻画性能影响水平,同时推导了离散状态之间的转移概率,使劣化过程更接近实际。研究具有较大的应用潜力,为飞机发动机多部件系统提供智能维护决策,有效降低维护成本,提高设备安全性。
[0004]在
技术介绍
部分中公开的上述信息仅仅用于增强对本专利技术背景的理解,因此可能包含不构成在本国中本领域普通技术人员公知的现有技术的信息。

技术实现思路

[0005]针对系统部件单独定期维护的不足,本公开的目的在于提供一种基于强化学习的航空发动机双参数指数劣化维护方法。
[0006]为实现上述目的,本公开提供以下技术方案:一种基于强化学习的航空发动机双参数指数劣化维护方法包括如下步骤:
[0007]步骤1,建立航空发动机的多部件系统劣化状态模型,其为含有随机误差项的双参数指数模型:
[0008]其中,φ为常数项,1nθ为以均值μ0,方差σ
02
的正态随机变量,β为以均值μ1,方差σ
12
的正态随机变量,σ2为随机误差项ε(t)的方差,N(
·
)表示正态分布,x(t)为双参数指数劣化过程;
[0009]步骤2,利用状态阈值将部件劣化状态离散化得到离散状态;
[0010]步骤3,每次维护行为维护后对部件劣化状态行更新以得到维护后的性能提升水平,更新形式分为瞬时性能提升和维护后的劣化发展两部分,其中,
[0011]瞬时性能提升中,对于中级维护状态等级瞬时提升一级,高级维护状态等级提升
两级,替换操作则直接将部件劣化状态提升到状态0;
[0012]维护后的劣化发展中,通过增加劣化递增因子来实现维护之后部件的劣化发展,x
[i+1](t)=b
i
x
[i](t)(b
i
>1),其中,b
i
为第i次维护时的劣化递增因子,x
[i](t)为第i维护活动之前部件遵循的劣化过程;
[0013]步骤4,基于所述双参数指数模型及航空发动机的多部件维护后的性能提升水平,构建状态之间的转移概率矩阵
[0014]步骤5,基于部件劣化的离散状态构建成状态空间,维护动作构建成动作空间;
[0015]步骤6,通过经济成本与停机损失成本建立成本函数,并计算单步奖励值;
[0016]步骤7,采用Q

Leaming算法以期望奖励最大为优化目标,获得每个劣化部件的离散状态下的最佳维护行为。
[0017]所述的方法中,步骤1中,对于不同的部件,双参数指数模型设置不同的模型参数来区别部件之间劣化程度。
[0018]所述的方法中,所述状态阈值为三个:D1、D2和F,将劣化过程划分为5个状态等级其中,三个状态阈值:D1、D2和F满足:D1<D2<F,将劣化过程划分为5种离散状态,各状态等级划分方式如下:
[0019]其中,x(t)为部件含有随机误差项的双参数指数模型劣化状态。
[0020]所述的方法中,步骤3中,所述维护行为分为无维护行为、中级维护、高级维护、替换,每种维护行为在不同离散状态下的性能改变是一定的。
[0021]所述的方法中,步骤4中,所述转移概率矩阵的构建建立在双参数指数劣化过程及其维护后的性能改变情况的基础上,当前一次的观测状态为状态0时,下一观测间隔τ后的状态转移:
[0022]其中:P(
·
)为劣化过程的分布函数,为第i部件从状态0转移到状态1的概率,
[0023]当前一次的观测状态为状态1时,采随机变量R
1i
来表示状态1的初始退化,该变量位于0~D1之间,满足均匀分布,下一观测间隔τ后的状态转移:
其中:P(
·
)为劣化过程的分布函数,为第i部件从状态1转移到状态2的概率,R
1i
为部件的初始退化量。
[0024]初始状态为状态2、状态3的状态转移矩阵依此类推。
[0025]所述的方法中,步骤5中,所述动作空间与状态空间的建立嵌入强化学习框架,使得在离散状态与动作空间中进行最优决策。
[0026]所述的方法中,步骤6中,所述单步奖励值用于构建决策过程中当前状态s或当前状态s下执行维护行为a的期望价值,即:状态价值函数和动作价值函数,
[0027]状态价值函数:v(s)=E[R
t+1
+γv(S
t+1
)|s
t
=s],式中:R
t+1
为第t+1步的单步奖励值,γ为衰减系数,S
t
为第t步状态,E[
·
]为求取期望值,v(s)为状态s下的价值函数,
[0028]动作价值函数:q(s,a)=E[R
t+1
+γq(S
t+1
,a
t+1
)|s
t
=s,a
t
=a],式中:R
t+1
为第t+1步的单步奖励值,γ为衰减系数,S
t
为第t步状态,a
t
为第t步动作,E[
·
]为求取期望值,q(s,a)为状态s下执行维护行为a的价值函数。
[0029]所述的方法中,步骤7中,所述最佳状态

维护动作对使得多部件系统的长期维护期望奖励最大,维护过程中同时对系统各个子部件进行观测,根据多个部件的状态组合进行维护。
[0030]与现有技术相比,本公开带来的有益效果为:在多部件系统劣化仿真过程中,采用瞬时提升与劣化递增因子刻画维护行为对部件性能的影响水平,有效反映了维护动作执行过程中对部件的积极和消极效果。基于双参数指数劣化模型和维护行为对部件性能的影响,计算部件离散状态下的状态转移概率,建立了指数劣化过程与强化学习离散状态之间的联系,从而模拟真实劣化过程。在强化学习框架内对多部件系统的维护进行决策,获得期望长期奖励最大的状态

维护动作对,可为系统某一瞬时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的航空发动机双参数指数劣化维护方法,包括如下步骤:步骤1,建立航空发动机的多部件系统劣化状态模型,其为含有随机误差项的双参数指数模型:其中,φ为常数项,lnθ为以均值μ0,方差σ
02
的正态随机变量,β为以均值μ1,方差σ
12
的正态随机变量,σ2为随机误差项ε(t)的方差,N(
·
)表示正态分布,x(t)为双参数指数劣化过程;步骤2,利用状态阈值将部件劣化状态离散化得到离散状态;步骤3,每次维护行为维护后,对部件劣化状态行更新以得到维护后的性能提升水平,更新形式分为瞬时性能提升和维护后的劣化发展两部分,其中,瞬时性能提升中,对于中级维护状态等级瞬时提升一级,高级维护状态等级提升两级,替换操作则直接将部件劣化状态提升到状态0;维护后的劣化发展中,通过增加劣化递增因子来实现维护之后部件的劣化发展,x
[i+1]
(t)=b
i
x
[i]
(t)(b
i
>1),其中,b
i
为第i次维护时的劣化递增因子,x
[i]
(t)为第i维护活动之前部件遵循的劣化过程;步骤4,基于所述双参数指数模型及航空发动机的多部件维护后的性能提升水平,构建状态之间的转移概率矩阵;步骤5,基于部件劣化的离散状态构建成状态空间,维护动作构建成动作空间;步骤6,通过经济成本与停机损失成本建立成本函数,并计算单步奖励值;步骤7,采用Q

Learning算法以期望奖励最大为优化目标,获得每个劣化部件的离散状态下的最佳维护行为。2.根据权利要求1所述的方法,其中,优选的,步骤1中,对于不同的部件,双参数指数模型设置不同的模型参数来区别部件之间劣化程度。3.根据权利要求1所述的方法,其中,步骤2中,所述状态阈值为三个:D1、D2和F,将劣化过程划分为5个状态等级其中,三个状态阈值:D1、D2和F满足:D1<D2<F,将劣化过程划分为5种离散状态,各状态等级划分方式如下:其中,x(t)为部件含有随机误差项的双参数指数模型劣化状态。4.根据权利要求1所述的方法,其中,步骤3中,所述维护行为分为无维护行为、中级维护、高级维护、替换,每种维护行为在不同离散状态下的性能改变是一定的。5.根据权利要求3所述的方法,其中,步骤4中,所述转移概率矩阵的构建建立在双参...

【专利技术属性】
技术研发人员:严如强杨旭彪周峥孙闯唐亚军杨波田绍华
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1