【技术实现步骤摘要】
基于强化学习的旋转机械诊断网络自动搜索方法
[0001]本专利技术属于旋转机械故障诊断网络结构自动搜索方法
,具体涉及基于强化学习的旋转机械诊断网络自动搜索方法。
技术介绍
[0002]旋转机械组件如轴承、齿轮、滚珠丝杠等作为传动部件的核心组成部分应用非常广泛,重要性也日益突出。近年来,关于旋转机械健康管理的研究也越来越成熟,特别是旋转机械的故障诊断方法,从开始的经典方法,发展到现在以数据驱动方法为主,就是因为数据驱动的方法特别是深度学习的方法能自动提取数据特征,应用快速便捷,对专业知识要求较低。不过在面对不同的旋转部件对象时需要重新训练,甚至需要重新设计创建神经网络。根据具体问题设计特定的神经网络模型能取得非常高的诊断精度,缺点是网络结构复杂,涉及到很多信号处理及深度学习建模相关的知识,需要高昂的时间和人力成本。
[0003]为了解决这个问题,研究者们开始研究神经结构的自动搜索,面对具体的诊断任务可自动设计出高性能的网络模型,摆脱对建模知识的依赖。神经结构搜索的逻辑过程是首先定义搜索空间,然后通过搜索策略找出 ...
【技术保护点】
【技术特征摘要】
1.基于强化学习的旋转机械诊断网络自动搜索方法,其特征在于,包括以下步骤:S1、定义包含六种网络层的操作空间,设计最大十二层的状态空间;S2、创建控制器,根据子模型当前拓扑状态做出决策,逐层从操作空间选择网络层搭建子模型,利用给定数据训练验证子模型并保存精度;S3、根据子模型验证精度得到当前奖励值,将奖励值转化为回报,保存子模型拓扑结构和回报值,强化训练控制器优化其参数;S4、子模型和控制器交替训练,最终得到能针对具体问题高效搜索出具有良好诊断性能子模型的控制器,解决旋转机械状态诊断问题。2.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法,其特征在于,所述步骤S1中的操作空间有六种网络层供搜索,包括三种卷积网络层、最大池化层、随机失活层和全连接层。3.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法,其特征在于,所述步骤S1中的状态空间即子模型在搜索搭建过程中的结构变化。4.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法,其特征在于所述步骤S2中的控制器由三层全连接网络层搭建。5.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法,其特征在于所述步骤S2中的子模型拓扑状态即子模型12层的操作类型。6.如权利要求1所述的基于强化学习的旋转机械诊断网络自动搜索方法,其特征在于所述步骤S2中的控制器决策是有限马尔科夫决策过程;所述有限马尔科夫决策过程表示状态、动作和收益的集合(S,A和R)都只有有限个元素。在这种情况下,随机变量R
t
和S
t
具有定义明确的离散概率分布,并且只依赖于前继状态和动作,也就是说,给定前继状态和动作的值时,这些随机变量的特定值,s
′
∈S和r∈R,在t时刻出现的概率是:p(s
′
,r|s,a)三P{S
t
=s
′
,R
t
=r|S
t
‑1=s,A
t
‑1=a)其中s
′
,s∈S,r∈R,以及a∈A(S)。该函数p是有4个参数的确定性函数,定义了MDP的动态特性。由上式可以推导出表征从状态s到状态s
′
的状态转移概率函数:同样地“状态
‑
动作”二元组的期望收益也可以上式推导出,并将其表示为一个双参数函数:控制器的目标是最大化其收到的总收益,这意味着需要最大化的不是当前利益,而是长期的累积收益,那么目标可以归结为:最大化控制器接收到的收益累积和的概率期望值。因此至关重要的一点就是,设立收益的方式要能真正表明目标,在最简单的情况下,回报是收益的总和,控制器通过选择A
t
获得当前时刻的回报,表示如下:其中,R
t+1
表示t+1时刻的收益,t时刻的回报G
t
是后续收益的总和,T表示每个episode的终止时刻。在上式的基础上还需要引入一个折扣率的概念,表示如下:
其中0≤γ≤1。折扣率y决定了未来收益的现值,未来时刻k的收益值只有它的当前值的γ
k
‑1倍。极端情况,γ=0,表明控制器只关心如何采取行动最大化当前利益R
t+1
,一般来说这会减少未来的收益,以至于总收益变少了。随着γ接近1,折后回报将更多考虑未来的收益,控制器变得更有远见。由上式可得出邻接时刻回报的关系:接着引入价值函数来评估当前控制器在给定状态下能获得多少未来预期的收益,即回报期望,是状态的函数,完全取决于控制器所选择的动作。因此价值函数是与特定的行为方式相关的,又可称之为策略。严格来说,策略是从状态到每个动作的选择概率之间的映射。如果控制器在时刻t选择了策略π,那么π(a|s)就是当S
t
=s时A
t
=a的概率。我们把策略π下状态s的价值函数记为v
π
(s),即从状态s开始,控制器按照策略π进行决策所获得的回报的概率期望值,对于马尔科夫决策过程,v
π
可正式定义为:上式称为策略π的状态价值函数,式中E
π
[
·
]表示在给定策略π时回报的期望值。类似于前面回报的...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。