一种基于对比自监督学习的时间序列设备故障诊断方法技术

技术编号:37504429 阅读:40 留言:0更新日期:2023-05-07 09:40
本发明专利技术公开了一种基于对比自监督学习的时间序列设备故障诊断方法,方法为:首先对无标签输入数据进行预处理,对提取的特征表示进行聚类,生成样本实例间正负样本对,并计算实例间聚类对比损失;其次对输入数据增强生成两个不同但相关的视图,根据时间对应关系生成正负样本对,并计算实例内时间对比损失;然后两个视图通过掩码预测任务生成正负样本对,并计算实例内上下文对比损失;最后计算实例间聚类对比损失、实例内时间对比损失以及实例内上下文对比损失的加权和作为模型的损失函数来训练模型,利用编码器和分类器得到最终的故障诊断结果。本发明专利技术解决了标签难获取、无标签、标签不足的问题,提高了设备故障诊断的精确度。提高了设备故障诊断的精确度。提高了设备故障诊断的精确度。

【技术实现步骤摘要】
一种基于对比自监督学习的时间序列设备故障诊断方法


[0001]本专利技术涉及机器学习领域,特别是一种基于对比自监督学习的时间序列设备故障诊断方法。

技术介绍

[0002]当前,机械设备已经广泛地应用于能源、交通、冶金、化工、航空等行业,在现代工业和生产中所起到的作用越来越大,并且机械设备的结构正朝重型化、大型化、高速化、精密化、复杂化等方向迅速地发展。机械设备的功能愈加完善,结构越来越复杂,这增加了机械系统发生故障的几率,并且导致对机械设备的健康状态进行监测愈发困难。机械设备一旦发生故障,不仅会导致严重的经济损失,并可能会造成严重的灾难性事故。因此为了避免经济损失,及时有效地对设备进行预测性维护,提高设备的安全性至关重要。
[0003]传统的机器学习方法通过精细的结构设计提取手工制作的特征,然后以数据驱动的方式构建特征与机械健康状态之间的映射关系。特征提取虽然可以取得良好的性能,但其过程仍然依赖于专家知识。深度学习作为机器学习的一个子领域,可以在不进行任何数据预处理的情况下匹配输入和输出之间的高非线性关系,从而获得更高的诊断精度。因此,它在故障诊断中得到了广泛的应用。然而,大多数基于深度学习的技术都遵循监督学习范式,有监督的模型通常需要大量的人工标记数据进行训练来保证模型的稳定收敛,因此将它们应用于具有少标签甚至无标签的时间序列数据是非常具有挑战性的。

技术实现思路

[0004]本专利技术的目的在于提供一种在保证模型精度的同时,减少数据标注量,解决标签难获取、无标签、标签不足的问题,提高设备故障诊断的精确度的设备故障诊断方法。
[0005]实现本专利技术目的的技术解决方案为:一种基于对比自监督学习的时间序列设备故障诊断方法,包括以下步骤:
[0006]步骤1、对无标签的输入数据进行预处理,然后进行特征提取并对提取的特征进行聚类,根据聚类结果选择样本实例间正负样本对,并计算实例间聚类对比损失;
[0007]步骤2、对无标签的输入数据进行数据增强,生成两个不同但相关的视图,根据两个视图的时间对应关系选择正负样本对,并计算实例内时间对比损失;
[0008]步骤3、基于步骤2的生成视图,通过掩码预测任务选择正负样本对,并计算实例内上下文对比损失;
[0009]步骤4、基于步骤1计算得到的实例间聚类对比损失、步骤2计算得到的实例内时间对比损失以及步骤3计算得到的实例内上下文对比损失进行求和作为整个模型的最终损失函数来训练模型;
[0010]步骤5、使用步骤4得到的预训练模型,利用编码器和分类器得到最终的故障诊断结果。
[0011]进一步地,步骤1中所述的对无标签的输入数据进行预处理,具体如下:
[0012]对数据进行时频域变换,如小波变换、短时傅里叶变换或经验模态分解。
[0013]进一步地,步骤1中所述的特征提取,具体如下:
[0014]特征提取分为基于信号处理的特征和基于模型的特征:
[0015]基于信号处理的特征包括时域特征和频域特征,其中时域特征包括有效值、峰峰值、直流量、峰值、峰值指标、脉冲指标、裕度指标、峭度指标、偏度系数、波形指标、中心频率、均方频率和均方根频率等,频域特征包括功率谱、包络谱、0.5倍~3倍的频率和4倍~12倍的幅值;
[0016]基于模型的特征是指数据输入神经网络得到的指定维度的特征表示。
[0017]进一步地,步骤1中所述的根据聚类结果选择样本实例间正负样本对,具体如下:
[0018]聚类后根据簇分配伪标签,一个簇内的样本具有相同的伪标签,不同的簇之间的样本具有不同的伪标签,因此对一个样本实例而言,与其伪标签相同的样本是正样本,与其伪标签不同的样本是负样本。
[0019]进一步地,步骤1中所述计算实例间聚类对比损失,具体如下:
[0020]采用聚类原型来计算对比损失,原型是聚类后每个簇的中心,即簇中所有样本的平均值,正对由一个实例与其相关的原型即实例所在簇的中心组成,负对由实例与不相关的原型即其他簇的中心组成,给定实例z的一个正对(z,p),其聚类对比损失计算公式为:
[0021][0022]其中,L
C
是指聚类对比损失,p是实例z所在簇的原型,N
P
是实例z的一组负对,p
i
是与实例z不相关的簇的原型,τ
p
和分别是与p、p
i
对应的温度系数。
[0023]进一步地,步骤2中所述的数据增强,具体如下:
[0024]数据增强是通过对数据进行时域变换来对数据进行扩充的方法,所述时域变换包括高斯噪声、采样、子序列调换顺序。
[0025]进一步地,步骤2中所述的根据两个视图的时间对应关系选择正负样本对,具体如下:
[0026]对于一个拥有N个时间段的输入样本,每个时间段有两个对应的上下文增强视图,因此该样本有2N个上下文增强视图;对于一个时间段的增强视图,把该时间段对应的另一个增强视图定义为这个增强视图的正样本对,因此一个时间段的两个增强视图互为对方的正样本对,由此可知一个时间段有2个正样本对,同时将剩余所有时间段不对应的增强样本对定义为负样本对,因此一个时间段的数据有2(N

1)个负样本对。
[0027]进一步地,步骤2中所述的计算实例内时间对比损失,具体如下:
[0028]通过计算样本对之间的余弦相似度,最小化正样本对之间的距离、最大化负样本对之间的距离,计算公式如下:
[0029][0030]其中sim(x,y)=x
T
y/||x||y||表示x和y之间的余弦相似度;是指示函数,i=j时取值为0,i≠j时取值为1;是一个上下文样本;是的正样本;代表一
个正样本对;是的负样本;τ是温度系数。
[0031]进一步地,步骤3中所述的通过掩码预测任务选择正负样本对,具体如下:
[0032]对一个增强视图数据进行随机掩码,用增强视图未掩码时间段的数据预测掩码部分的数据;其中,相同样本的掩码预测值与掩码部分的真实值构成正样本对,不同样本的掩码预测值与掩码部分的真实值构成负样本对。
[0033]进一步地,步骤3中所述的计算实例内上下文对比损失,具体如下:
[0034]计算最小化正样本对之间点积、最大化负样本对之间的点积,计算公式如下:
[0035][0036]其中,是指上下文对比损失,是增强1未掩码时间段的数据通过自回归函数生成的预测值;是增强2未掩码时间段的数据通过自回归函数生成的预测值;是增强1掩码时间段的真实值;是增强2掩码时间段的真实值;R
k
是线性映射函数,将预测值c
t
映射到与真实值z
t+k
相同的维度;K是样本个数,k是掩码的长度,1<k<K;是指负样本的集合;分别是两个增强的负样本集合中的元素;上标1和2分别代表不同的两个视图。
[0037]进一步地,步骤5中所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比自监督学习的时间序列设备故障诊断方法,其特征在于,包括以下步骤:步骤1、对无标签的输入数据进行预处理,然后进行特征提取并对提取的特征进行聚类,根据聚类结果选择样本实例间正负样本对,并计算实例间聚类对比损失;步骤2、对无标签的输入数据进行数据增强,生成两个不同但相关的视图,根据两个视图的时间对应关系选择正负样本对,并计算实例内时间对比损失;步骤3、基于步骤2的生成视图,通过掩码预测任务选择正负样本对,并计算实例内上下文对比损失;步骤4、基于步骤1计算得到的实例间聚类对比损失、步骤2计算得到的实例内时间对比损失以及步骤3计算得到的实例内上下文对比损失进行求和,作为整个模型的最终损失函数来训练模型;步骤5、使用步骤4得到的预训练模型,利用编码器和分类器得到最终的故障诊断结果。2.根据权利要求1所述的基于对比自监督学习的时间序列设备故障诊断方法,其特征在于,步骤1中所述的对无标签的输入数据进行预处理,具体如下:对数据进行时频域变换,时频域变换采用小波变换、短时傅里叶变换或经验模态分解的方式;步骤1中所述的特征提取,具体如下:特征提取分为基于信号处理的特征和基于模型的特征:基于信号处理的特征包括时域特征和频域特征,其中时域特征包括有效值、峰峰值、直流量、峰值、峰值指标、脉冲指标、裕度指标、峭度指标、偏度系数、波形指标、中心频率、均方频率和均方根频率等,频域特征包括功率谱、包络谱、0.5倍~3倍的频率和4倍~12倍的幅值;基于模型的特征是指数据输入神经网络得到的指定维度的特征表示。3.根据权利要求1所述的基于对比自监督学习的时间序列设备故障诊断方法,其特征在于,步骤1中所述的根据聚类结果选择样本实例间正负样本对,具体如下:聚类后根据簇分配伪标签,一个簇内的样本具有相同的伪标签,不同的簇之间的样本具有不同的伪标签,因此对一个样本实例而言,与其伪标签相同的样本是正样本,与其伪标签不同的样本是负样本。4.根据权利要求1所述的基于对比自监督学习的时间序列设备故障诊断方法,其特征在于,步骤1中所述计算实例间聚类对比损失,具体如下:采用聚类原型来计算对比损失,原型是聚类后每个簇的中心,即簇中所有样本的平均值,正对由一个实例与其相关的原型即实例所在簇的中心组成,负对由实例与不相关的原型即其他簇的中心组成,给定实例z的一个正对(z,p),聚类对比损失计算公式为:其中,L
C
是指聚类对比损失,p是实例z所在簇的原型,N
P
是实例z的一组负对,p
i
是与实例z不相关的簇的原型,τ
p
和τ
pi
分别是与p、p
i
对应的温度系数。5.根据权利要求1所述的基于对比自监督学习的时间序列设备故障诊断方法,其特征
在于,步骤2中所述的数据增强,具体如下:数据增强是通过对数据...

【专利技术属性】
技术研发人员:李骏代雅娇梅镇韦康
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1