当前位置: 首页 > 专利查询>四川大学专利>正文

强化学习单元匹配循环神经网络系统及其训练和预测方法技术方案

技术编号:21116365 阅读:20 留言:0更新日期:2019-05-16 09:10
本发明专利技术涉及一种强化学习单元匹配循环神经网络系统及其训练和预测方法,包括循环神经网络、强化学习单元和单调趋势识别器,循环神经网络包括输入、输出和多个隐层,隐层包括多个隐层节点,单调趋势识别器判断由输入构建的时间序列的趋势状态,强化学习单元为根据输入时间序列的趋势状态,选择一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络。本发明专利技术通过判断输入时间序列的趋势状态,用趋势状态和不同隐层层数及隐层节点数分别表示Q值集的状态与动作,根据更新后的Q值集来选择执行最优的动作,增强了RLUMRNN的泛化能力和收敛速度,本发明专利技术应用于旋转机械的剩余寿命预测的精度高。

【技术实现步骤摘要】
强化学习单元匹配循环神经网络系统及其训练和预测方法
本专利技术涉及神经网络
,尤其涉及一种强化学习单元匹配循环神经网络系统及其训练和预测方法。
技术介绍
旋转机械是民用及国防领域的机械设备中应用最广泛的组件之一,在长期运行过程中旋转机械会逐渐退化,剩余寿命会逐步下降,故障的发生往往带来灾难性的事故,造成重大经济损失和严重的社会影响。对于旋转机械而言,经过设计和制造工艺的优化,设备的质量能够得到提高,但在服役过程中仍难以保证不出现故障。同类同型号的旋转机械设备即使在相同的工况下,由于运行环境各异、载荷作用复杂,其寿命数据具有较大的离散性,这给准确预测剩余寿命带来了困难。对于服役一段时间或到达设计寿命的旋转机械,盲目地维修或更换会造成不必要的资源浪费,剩余寿命评估可以为其维修决策的制定提供重要信息。目前工业企业对旋转机械的维护普遍采用视时维护制度,即无论设备是否发生故障,都对其进行定期检修,这样的检修制度虽然计划性强,但是时间和空间占用多,需要储备大量备品备件,消耗大批的资金,容易因检修周期间隔过长或过短造成旋转机械设备的欠维护或过维护。因此,有计划、有针对性地准确预测出旋转机械的剩余寿命,以便在旋转机械发生故障之前采取适当的措施以防止灾难性事故的发生,成为一个十分重要和紧迫的课题。当前,基于数据驱动的旋转机械剩余寿命预测方法获得越来越多的关注和研究。基于数据驱动的旋转机械剩余寿命预测方法可分为三类:第一类是现代模型预测方法,如粒子滤波(Particlefilter,PF)等;第二类是数值分析预测方法,如支持向量回归(SupportVectorRegression,SVR)等;第三类是人工智能的预测方法,如神经网络和专家系统等。对于PF,重采样阶段会造成样本有效性和多样性的损失,导致样本贫化现象。由于SVR的核函数类型和核参数依然很难准确设定,导致预测结果也不确定。人工神经网络的隐层层数和节点数的选择没有成熟的理论指导,一般依据经验进行选取,导致模型的预测精度和计算效率不理想。作为解决序贯决策的机器学习方法,强化学习采取持续的“交互-试错”机制,实现Agent与环境的不断交互,从而学得完成任务的最优策略,契合了人类提升智能的行为决策方式。针对神经网络隐层层数和节点数依据经验选取造成非线性逼近能力和泛化性能不可控的问题,结合强化学习在智能决策方面的优势,在循环神经网络(Recurrentneuralnetwork,RNN)的基础上,提出了强化学习单元匹配循环神经网络。。
技术实现思路
本专利技术所要解决的技术问题是提供一种泛化能力强,收敛速度快且能够精准预测旋转机械剩余使用寿命的强化学习单元匹配循环神经网络系统及其训练和预测方法。为解决上述技术问题,本专利技术的技术方案是:一种强化学习单元匹配循环神经网络系统,包括循环神经网络和强化学习单元,所述循环神经网络包括输入、输出和多个隐层,所述隐层包括多个隐层节点,还包括单调趋势识别器,所述单调趋势识别器判断由所述输入构建的时间序列的趋势状态,所述强化学习单元为根据输入时间序列的趋势状态,选择一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络,其中,所述输入时间序列的趋势状态包括多个状态,每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络。作为优选的技术方案,所述趋势状态包括上升趋势状态、下降趋势状态和平稳趋势状态。作为优选的技术方案,所述单调趋势识别器将所述输入的时间序列xt=[x1,x2,…,xt]T在时域坐标系中构建出相对应的点坐标(1,x1),(2,x2),…,(t,xt),并将所述点坐标通过线性拟合,得出所述点坐标的线性拟合直线方程x=ht+b,并求解出所述线性拟合方程的斜率h和截距b,则:1)若则为下降趋势状态;2)若则为上升趋势状态;3)若λ<arctanh<μ,则为平稳趋势状态;其中,λ是第一阈值,μ是第二阈值,λ<0且μ>0。作为优选的技术方案,所述强化学习单元包括一个与隐层数和隐层节点数相对应的循环神经网络的的动作集、一个与所述趋势状态及其动作所对应的Q值;所述强化学习单元根据所述输入时间序列的趋势状态,从动作集中选择一个动作,再根据所述Q值集,以及所述趋势状态下的最优策略得到所述趋势状态下的动作,通过所述趋势状态下的动作在动作集中所对应的隐层数和隐层节点数,得到所述趋势状态下的时间序列所对应的循环神经网络,并计算出所述循环神经网络的最终输出。一种强化学习单元匹配循环神经网络系统的训练方法,包括以下步骤:根据当前时间序列所对应的趋势状态,所述趋势状态下执行的动作以及当前时间序列对应的循环神经网络,并计算出所述循环神经网络的最终输出;计算最终输出与理想输出的误差,根据所述误差,更新Q值集中所述趋势状态下执行所述动作的Q值;通过随机梯度下降法对当前时间序列对应的循环神经网络的各隐层的权值进行更新。一种旋转机械剩余寿命的预测方法,包括以下步骤:对旋转机械的振动数据进行特征提取,获得所述旋转机械的奇异谱熵,并将其作为所述旋转机械的状态退化特征;将所述奇异谱熵分解成多个训练样本,作为输入时间序列依次输入强化学习匹配循环神经网络系统中,通过单调趋势识别器判断所述输入时间系列的趋势状态,得到与所述趋势状态对应的循环神经网络,并对所述循环神经网络进行多次训练;将最后一个训练样本通过单调趋势识别器判断其趋势状态,得到其对应的循环神经网络,通过所述循环神经网络得到第一个奇异谱熵预测值,将第一个奇异谱熵预测值与最后一个训练样本中的最后t-1个奇异谱熵值结合构建一个新的训练样本,将该新训练样本输入与其趋势状态对应的循环神经网络中,得到第二个奇异谱熵预测值,以此类推,得到t个奇异谱熵预测值,并将所述t个奇异谱熵预测值构建成第一个预测样本;将第一个预测样本再通过单调趋势识别器判断其趋势状态后,输入与其趋势状态对应的循环神经网络中,得到第二个预测样本,以此类推得到V个由奇异谱熵预测值构建的预测样本,通过所述预测样本得到所述奇异谱熵预测值的曲线图;观察所述奇异谱熵预测值的曲线图,所述曲线图中奇异谱熵开始急剧上升的阶段为所述旋转机械进入退化加剧阶段,在曲线图中获取所述退化加剧阶段中第一次出现的明显较高的奇异谱熵波峰,设定所述波峰对应的时间点为旋转机械运行的失效时间点,并根据所述失效时间点计算出所述旋转机械的剩余寿命。由于采用了上述技术方案,本专利技术的有益效果是:本专利技术中,通过单调趋势识别器,来判断输入时间序列的趋势状态(上升,下降,平稳),用这三种趋势状态和不同隐层层数及隐层节点数分别表示Q值集的状态与动作,Agent根据更新后的Q值集来选择执行最优的动作(即选择隐层层数和隐层节点数与每种序列趋势单元最匹配的循环神经网络),增强了RLUMRNN的泛化能力,使所提出的预测方法具有较高的预测精度;另外,为了明确强化学习的学习目标(即i-RNN的输出误差E较小),避免Agent在Q值集更新过程中的盲目搜索动作,通过输出误差计算奖励,避免了Agent的盲目搜索,提高了RLUMRNN的收敛速度,使所提出的预测方法具有较高的计算效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见本文档来自技高网
...

【技术保护点】
1.一种强化学习单元匹配循环神经网络系统,包括循环神经网络和强化学习单元,所述循环神经网络包括输入、输出和多个隐层,所述隐层包括多个隐层节点,其特征在于:还包括单调趋势识别器,所述单调趋势识别器判断由所述输入构建的时间序列的趋势状态,所述强化学习单元为根据输入时间序列的趋势状态,选择一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络,其中,所述输入时间序列的趋势状态包括多个状态,每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络。

【技术特征摘要】
1.一种强化学习单元匹配循环神经网络系统,包括循环神经网络和强化学习单元,所述循环神经网络包括输入、输出和多个隐层,所述隐层包括多个隐层节点,其特征在于:还包括单调趋势识别器,所述单调趋势识别器判断由所述输入构建的时间序列的趋势状态,所述强化学习单元为根据输入时间序列的趋势状态,选择一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络,其中,所述输入时间序列的趋势状态包括多个状态,每个趋势状态对应一个隐层层数和隐层节点数与其变化规律相适应的循环神经网络。2.如权利要求1所述的一种强化学习单元匹配循环神经网络系统,其特征在于:所述趋势状态包括上升趋势状态、下降趋势状态和平稳趋势状态。3.如权利要求2所述的一种强化学习单元匹配循环神经网络系统,其特征在于:所述单调趋势识别器将所述输入的时间序列xt=[x1,x2,…,xt]T在时域坐标系中构建出相对应的点坐标(1,x1),(2,x2),…,(t,xt),并将所述点坐标通过线性拟合,得出所述点坐标的线性拟合直线方程x=ht+b,并求解出所述线性拟合方程的斜率h和截距b,则:1)若则为下降趋势状态;2)若则为上升趋势状态;3)若λ<arctanh<μ,则为平稳趋势状态;其中,λ是第一阈值,μ是第二阈值,λ<0且μ>0。4.如权利要求1所述的一种强化学习单元匹配循环神经网络系统,其特征在于:所述强化学习单元包括一个与隐层数和隐层节点数相对应的循环神经网络的的动作集、一个与所述趋势状态及其动作所对应的Q值集;所述强化学习单元根据所述输入时间序列的趋势状态,从动作集中选择一个动作,再根据所述Q值集,以及所述趋势状态下的最优策略得到所述趋势状态下的动作,通过所述趋势状态下的动作在动作集中所对应的隐层数和隐层节点数,得到所述趋势状态下的时间序列所对应的循环神经网络,并计算出所述循环神经网络的最终输出。5.一种强化学习单元匹配循环神经网络系统的训练方法,其特征...

【专利技术属性】
技术研发人员:李锋陈勇田大庆
申请(专利权)人:四川大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1