一种燃气轮机转子系统改进DQN故障诊断方法及系统技术方案

技术编号:35457215 阅读:20 留言:0更新日期:2022-11-03 12:17
本发明专利技术涉及一种燃气轮机转子系统改进DQN故障诊断方法及系统,其包括:采集实验平台燃气轮机转子的振动数据进行预处理,将振动数据划分为训练集和测试集;构建DQN模型的状态空间与动作空间,状态空间由故障样本构成,动作空间是由故障类型构成;DQN模型环境与智能体交互,环境输出状态智能体,智能体通过ε

【技术实现步骤摘要】
一种燃气轮机转子系统改进DQN故障诊断方法及系统


[0001]本专利技术涉及一种机械设备故障诊断
,特别是关于一种燃气轮机转子系统改进DQN故障诊断方法及系统。

技术介绍

[0002]燃气轮机转子作为其关键部件,结构复杂,运行过程中转速变化快,受力不均匀,运行环境恶劣,因此,燃气轮机在运行过程中会受到很大影响。一旦燃气轮机发生故障,严重影响其安全运行,甚至造成人民生命财产的损失,同时其维修保障成本极高,急需对燃气轮机转子系统服役运行状态进行评估和故障诊断。
[0003]传统燃气轮机转子故障诊断方法包括基于模型的方法和基于数据驱动的方法等。基于模型的方法需要有深厚的理论基础和复杂的计算,会耗费大量的时间与精力,对于复杂机电系统,还存在机理不清,复杂系统建模困难等问题。专家学者针对基于数据驱动的故障诊断方法开展的大量的研究,取得了丰硕的研究成果。基于数据驱动的方法利用信号处理技术,如小波变换(Wavelet Transform,WT)、经验模态分解(Empirical Mode Decomposition,EMD)、变分模态分解(Variational Mode Decomposition,VMD)等,从振动信号中提取故障频率、实现故障检测。
[0004]随着人工智能的兴起,基于神经网络的数据驱动方法为故障诊断提供了新的途径。将深度学习方法应用在机械故障诊断方面虽然有着显著的性能,但是,其中大多数方法为有监督学习,其输入在训练过程中通过分类器直接映射到故障类型上,学习方式是静态的,无法做“思考”、进行决策,会影响诊断结果的准确性。深度强化学习(Deep Reinforcement Learning,DRL)作为人工智能新的突破,充分结合了深度学习的感知能力和强化学习的决策能力。深度Q网络(Deep Q

Network,DQN)可以有效地使用深度神经网络的感知能力进行特征提取,同时具备强化学习的决策能力。目前研究的DQN故障诊断多以时频图像作为输入,在一维振动信号转二维图像过程中,有可能导致故障敏感特征弱信息丢失,使得故障的敏感特征难以获取。另外,在经验池记忆缓存时随机采样会导致稀缺故障信息丢失,故障诊断精度低,限制了深度强化学习在实际工业场景的应用。

技术实现思路

[0005]燃气轮机转子系统作为燃气轮机关键部件,针对难以获取敏感故障特征导致故障诊断精度不高,影响设备的安全服役的问题,本专利技术的目的是提供一种燃气轮机转子系统改进DQN故障诊断方法及系统,充分结合了深度学习的强感知能力与强化学习的强决策能力,实现了具有决策能力的故障诊断。
[0006]为实现上述目的,本专利技术采取以下技术方案:一种燃气轮机转子系统改进DQN故障诊断方法,其包括:采集实验平台燃气轮机转子的振动数据进行预处理,将振动数据划分为训练集和测试集;构建DQN模型的状态空间与动作空间,状态空间由故障样本构成,动作空间是由故障类型构成;DQN模型环境与智能体交互,环境输出状态智能体,智能体通过ε


婪策略决策出动作到环境,在环境中反馈得到奖励和下一个状态,同时该条经验存储到经验回放池内;智能体中的主网络和目标网络采用WDCNN模型,在学习训练中从经验回放池内随机选取经验到主网络和目标网络中,经学习训练后更新网络参数,得到最优Q值与总奖励;将训练集数据输入到训练好的智能体中,将测试集数据输入训练好的WDCNN模型,得到故障诊断结果。
[0007]进一步,所述智能体是根据故障数据状态s
t
决策出故障类型动作a
t
,采用ε

贪婪策略生成动作A为:
[0008][0009]式中,P=1

ε表示以1

ε的概率选择价值最大动作作为下一时间步要执行的动作,P=ε表示以ε的概率选择随机动作,ε为一个很小的值,Q(a)表示执行该动作的分值。
[0010]进一步,所述智能体中的主网络和目标网络采用WDCNN模型,包括:
[0011]WDCNN模型利用第一宽卷积层和多层卷积层,对输入振动信号进行深度提取;
[0012]第一宽卷积层用于一维输入振动信号,多层卷积层的小卷积核用于深度提取振动信号,经全连接层之后输出对应状态和动作的Q值。
[0013]进一步,所述在学习训练中从经验回放池内随机选取经验到主网络与目标网络中,所述经验的选取方法包括:根据优先级来优先选择经验并采样,优先选择具有最大优先值的时间差分误差的经验。
[0014]进一步,所述具有最大优先值的时间差分误差的获取方法包括:
[0015]根据目标网络输出的目标Q值与当前Q值的差值,得到时间差分误差;
[0016]根据时间差分误差,引入系数α和偏移β计算每个经验的优先值。
[0017]进一步,所述优先值为:
[0018][0019]其中,P(i)为优先值;l为优先级指数,当l=0时是均匀抽样;p
i
=|δ+ε|,δ为时间差分误差,ε为一个很小的值,为了确保有一定概率能抽到TD

error为0的经验。
[0020]进一步,所述学习训练的方法包括:
[0021]将环境、经验回放池、主网络和目标网络权重θ进行初始化;
[0022]模拟环境,由环境给智能体输入故障数据状态s
t

[0023]智能体采用ε

贪婪策略判断输出动作a
t
,与环境中的故障数据状态s
t
做对比得到奖励r
t
,由环境输出下一状态s
t+1
,同时设置一个值T,T为布尔型,用于判断新的状态s
t+1
是否为终止状态y
i

[0024]将经验(s
t
,a
t
,r
t
,s
t+1
,T)加入经验回放池中,计算第i个经验的奖励y
i

[0025]从经验回放池内随机采样,输入到主网络和目标网络,由主网络输出当前Q值,目标网络输出目标Q值,目标网络是由主网络复制而成,根据当前Q值与目标Q值计算损失函数,使用梯度下降更新网络参数,从而得到最优Q值,通过智能体与环境不断交互得到最优策略。
[0026]一种燃气轮机转子系统改进DQN故障诊断系统,其包括:第一处理模块,采集实验
平台燃气轮机转子的振动数据进行预处理,将振动数据划分为训练集和测试集;第二处理模块,构建DQN模型的状态空间与动作空间,状态空间由故障样本构成,动作空间是由故障类型构成;第三处理模块,DQN模型环境与智能体交互,环境输出状态智能体,智能体通过ε

贪婪策略决策出动作到环境,在环境中反馈得到奖励和下一个状态,同时该条经验存储到经验回放池内;学习训练模块,智能体中的主网络和目标网络采用WDCNN模型,在学习训练中从经验回本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种燃气轮机转子系统改进DQN故障诊断方法,其特征在于,包括:采集实验平台燃气轮机转子的振动数据进行预处理,将振动数据划分为训练集和测试集;构建DQN模型的状态空间与动作空间,状态空间由故障样本构成,动作空间是由故障类型构成;DQN模型环境与智能体交互,环境输出状态智能体,智能体通过ε

贪婪策略决策出动作到环境,在环境中反馈得到奖励和下一个状态,同时该条经验存储到经验回放池内;智能体中的主网络和目标网络采用WDCNN模型,在学习训练中从经验回放池内随机选取经验到主网络和目标网络中,经学习训练后更新网络参数,得到最优Q值与总奖励;将训练集数据输入到训练好的智能体中,将测试集数据输入训练好的WDCNN模型,得到故障诊断结果。2.如权利要求1所述燃气轮机转子系统改进DQN故障诊断方法,其特征在于,所述智能体是根据故障数据状态s
t
决策出故障类型动作a
t
,采用ε

贪婪策略生成动作A为:式中,P=1

ε表示以1

ε的概率选择价值最大动作作为下一时间步要执行的动作,P=ε表示以ε的概率选择随机动作,ε为一个很小的值,Q(a)表示执行该动作的分值。3.如权利要求1所述燃气轮机转子系统改进DQN故障诊断方法,其特征在于,所述智能体中的主网络和目标网络采用WDCNN模型,包括:WDCNN模型利用第一宽卷积层和多层卷积层,对输入振动信号进行深度提取;第一宽卷积层用于一维输入振动信号,多层卷积层的小卷积核用于深度提取振动信号,经全连接层之后输出对应状态和动作的Q值。4.如权利要求1所述燃气轮机转子系统改进DQN故障诊断方法,其特征在于,所述在学习训练中从经验回放池内随机选取经验到主网络与目标网络中,所述经验的选取方法包括:根据优先级来优先选择经验并采样,优先选择具有最大优先值的时间差分误差的经验。5.如权利要求4所述燃气轮机转子系统改进DQN故障诊断方法,其特征在于,所述具有最大优先值的时间差分误差的获取方法包括:根据目标网络输出的目标Q值与当前Q值的差值,得到时间差分误差;根据时间差分误差,引入系数α和偏移β计算每个经验的优先值。6.如权利要求5所述燃气轮机转子系统改进DQN故障诊断方法,其特征在于,所述优先值为:其中,P(i)为优先值;l为优先级指数,当l=0时是均匀抽样;p
i
=|δ+ε|,δ为时间差分误差,ε为一个很小的值,为了确保有一定概率能抽到TD

error为0的经验。7...

【专利技术属性】
技术研发人员:王红军崔英杰王楠
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1