一种面向工业不平衡数据的对抗增强故障分类方法技术

技术编号：24408260 阅读：56 留言：0更新日期：2020-06-06 08:02

本发明专利技术公开了一种面向工业不平衡数据的对抗增强故障分类方法，属于工业过程故障诊断和分类领域。该方法通过多分类判别器和小样本生成器之间的对抗训练，小样本生成器分别对每一类不平衡的小样本定向地生成数据，并通过基于主元空间马氏距离的数据筛选，得到与真实数据更接近的生成数据。建立了补充数据库的动态表，利用定量的更新样本集对真实数据进行补充，得到新的数据集，解决了工业数据的不平衡性。该分类方法将生成器和多分类判别器的训练过程耦合到一起，更有效地利用了计算资源。

A method of anti enhanced fault classification for industrial unbalanced data

全部详细技术资料下载

【技术实现步骤摘要】
一种面向工业不平衡数据的对抗增强故障分类方法
本专利技术属于工业过程故障诊断和分类领域，具体地涉及一种面向工业不平衡数据的对抗增强故障分类方法。
技术介绍
随着现代工业的发展，工业数据大量积累，为数据驱动的过程分析提供了基础。其中，故障诊断问题是工业数据的典型应用。许多数据驱动的方法，如支持向量机，反向传播神经网络等算法已经被广泛地用于一些工业过程中的故障分类。但是由于工业中发生的故障情况很少，因此采集到的故障数据也非常有限。相比于数量庞大的非故障数据，即正常情况下的数据，故障数据所占的比例很低。此外，不同概率的故障也存在数量的不平衡。这给基于平衡数据分布的算法分类带来了困难。所以工业中的故障诊断实质上是不平衡数据的多分类问题，亟待解决。从数据层面去补充数据，是解决不平衡问题最直接的方法。生成对抗网络是目前一种具有前景的生成模型，它有生成器和判别器构成。通过生成器和判别器之间的对抗训练，生成器能够生成骗过判别器的数据。因此，生成对抗网络生成的数据能够被应用于小样本的补充。但是生成对抗网络的训练过程是极不稳定的...

【技术保护点】
1.一种面向工业不平衡数据的对抗增强故障分类方法，其特征在于，具体包括以下步骤：/n(1)采集历史工业过程中的离线数据作为原始数据集X，X中包含m种大样本数据X

【技术特征摘要】
1.一种面向工业不平衡数据的对抗增强故障分类方法，其特征在于，具体包括以下步骤：
(1)采集历史工业过程中的离线数据作为原始数据集X，X中包含m种大样本数据Xbig与n种小样本数据Xsmall，即X＝{Xbig，Xsmall}＝{(xi，yi)}，其中yi∈{1，2，...，m+n}，i表示样本个数，且m种大样本的样本数相同，而小样本数据的样本数少于大样本；对原始数据集X进行预处理，将其通过线性函数将原始数据线性化的方法转换到[0，1]范围，得到训练数据集
(2)数据生成阶段，具体包括如下子步骤：
(2.1)小样本生成器为不平衡数据的n种小样本数据构建n个生成器的结构，每个所述小样本生成器均为结构相同的全连接神经网络，其输入为高斯噪音z，维数为p；其输出为生成数据的特征，维数为q；n个生成器之间相互独立，构成并行的多生成器结构；在高斯噪声z输入生成器之前，先将每个小样本生成器网络的超参数进行初始化；
(2.2)通过随机函数生成均值为0、方差为0.1的高斯噪音z。将高斯噪音z输入所述小样本生成器，生成器输出n组生成数据G(z)＝{G1，G2，…，Gn}；
(3)数据筛选阶段，具体包括如下步骤：
(3.1)对所述训练数据集做主元分析，得到参考主元矩阵T1，分别将所述生成数据G(z)投影到参考主元空间得到对应主元矩阵T2；参考主元矩阵T1通过累计方差百分比达到98％，确定参考主元矩阵T1中的主元个数；对应主元矩阵T2中的主元个数与参考主元矩阵T1中的主元个数相等。
(3.2)分别对所述参考主元矩阵T1内的小样本数据质心求马氏距离MD1max的最大值，得到不同类别下的最远距离通过所述MD1max确定数据筛选的阈值上限值为kMD1max，k为筛选系数。
(3.3)对所述对应主元矩阵T2与参考主元矩阵T1所对应的小样本质心求马氏距离将MD2与kMD1max进行比较，若则认为所述生成数据G(z)接近训练数据集为有效点Gvalid；若此时认为所述生成数据G偏离训练数据集为离群噪点Ginvalid。
(3.4)将有效点Gvalid从所述生成数据G(z)集中提取出来，并给它们相应的类别标签y，...

【专利技术属性】
技术研发人员：葛志强，江肖禹，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人