当前位置: 首页 > 专利查询>浙江大学专利>正文

一种面向工业不平衡数据的对抗增强故障分类方法技术

技术编号:24408260 阅读:40 留言:0更新日期:2020-06-06 08:02
本发明专利技术公开了一种面向工业不平衡数据的对抗增强故障分类方法,属于工业过程故障诊断和分类领域。该方法通过多分类判别器和小样本生成器之间的对抗训练,小样本生成器分别对每一类不平衡的小样本定向地生成数据,并通过基于主元空间马氏距离的数据筛选,得到与真实数据更接近的生成数据。建立了补充数据库的动态表,利用定量的更新样本集对真实数据进行补充,得到新的数据集,解决了工业数据的不平衡性。该分类方法将生成器和多分类判别器的训练过程耦合到一起,更有效地利用了计算资源。

A method of anti enhanced fault classification for industrial unbalanced data

【技术实现步骤摘要】
一种面向工业不平衡数据的对抗增强故障分类方法
本专利技术属于工业过程故障诊断和分类领域,具体地涉及一种面向工业不平衡数据的对抗增强故障分类方法。
技术介绍
随着现代工业的发展,工业数据大量积累,为数据驱动的过程分析提供了基础。其中,故障诊断问题是工业数据的典型应用。许多数据驱动的方法,如支持向量机,反向传播神经网络等算法已经被广泛地用于一些工业过程中的故障分类。但是由于工业中发生的故障情况很少,因此采集到的故障数据也非常有限。相比于数量庞大的非故障数据,即正常情况下的数据,故障数据所占的比例很低。此外,不同概率的故障也存在数量的不平衡。这给基于平衡数据分布的算法分类带来了困难。所以工业中的故障诊断实质上是不平衡数据的多分类问题,亟待解决。从数据层面去补充数据,是解决不平衡问题最直接的方法。生成对抗网络是目前一种具有前景的生成模型,它有生成器和判别器构成。通过生成器和判别器之间的对抗训练,生成器能够生成骗过判别器的数据。因此,生成对抗网络生成的数据能够被应用于小样本的补充。但是生成对抗网络的训练过程是极不稳定的,容易产生偏离真实数据的噪点或是发生模式崩溃问题,影响生成数据的真实性。且生成对抗网络和分类器的训练是独立的两个过程,增加了模型的复杂度和计算资源的浪费。
技术实现思路
针对工业不平衡数据的分类问题,本专利技术提出了一种面向工业不平衡数据的对抗增强故障分类方法,利用小样本生成器和多分类判别器的对抗生成网络结构,实现了精确分类。本专利技术的目的是通过如下技术方案实现的:一种面向工业不平衡数据的对抗增强故障分类方法,具体包括以下步骤:(1)采集历史工业过程中的离线数据作为原始数据集X,X中包含m种大样本数据Xbig与n种小样本数据Xsmall,即X={Xbig,Xsmall}={(xi,yi)},其中yi∈{1,2,...,m+n},i表示样本个数,且m种大样本的样本数相同,而小样本数据的样本数少于大样本;对原始数据集X进行预处理,将其通过线性函数将原始数据线性化的方法转换到[0,1]范围,得到训练数据集(2)数据生成阶段,具体包括如下子步骤:(2.1)小样本生成器为不平衡数据的n种小样本数据构建n个生成器的结构,每个所述小样本生成器均为结构相同的全连接神经网络,其输入为高斯噪音z,维数为p;其输出为生成数据的特征,维数为q;n个生成器之间相互独立,构成并行的多生成器结构;在高斯噪声z输入生成器之前,先将每个小样本生成器网络的超参数进行初始化;(2.2)通过随机函数生成均值为0、方差为0.1的高斯噪音z。将高斯噪音z输入所述小样本生成器,生成器输出n组生成数据G(z)={G1,G2,…,Gn};(3)数据筛选阶段,具体包括如下步骤:(3.1)对所述训练数据集做主元分析,得到参考主元矩阵T1,分别将所述生成数据G(z)投影到参考主元空间得到对应主元矩阵T2;参考主元矩阵T1通过累计方差百分比达到98%,确定参考主元矩阵T1中的主元个数;对应主元矩阵T2中的主元个数与参考主元矩阵T1中的主元个数相等。(3.2)分别对所述参考主元矩阵T1内的小样本数据质心求马氏距离MD1max的最大值,得到不同类别下的最远距离通过所述MD1max确定数据筛选的阈值上限值为kMD1max,k为筛选系数。(3.3)对所述对应主元矩阵T2与参考主元矩阵T1所对应的小样本质心求马氏距离将MD2与kMD1max进行比较,若MD2<kMD1max,则认为所述生成数据G(z)接近训练数据集为有效点Gvalid;若MD2>kMD1max,此时认为所述生成数据G偏离训练数据集为离群噪点Ginvalid。(3.4)将有效点Gvalid从所述生成数据G(z)集中提取出来,并给它们相应的类别标签y,去除离群噪点Ginvalid。(4)补充数据库的动态表阶段,具体包括如下步骤:(4.1)将所述有效点Gvalid导入补充数据库的动态表L中,其中,所述动态表L为每个小样本类别的生成数据分配的一个样本序列,即共a个样本序列;补充数据库中的每条样本序列长度加上对应类别小样本的真实样本数等于每类大样本的真实样本数;(4.2)当生成样本的累计个数小于序列长度时,在迭代过程中持续将生成样本写入补充数据库的动态表L中;当生成样本的累计个数大于或等于样本序列的长度时,将末尾的生成数据淘汰,写入新的生成数据,得到更新的补充数据集X′。(5)分类器训练阶段,具体包括如下步骤:(5.1)构建一个由多隐层和softmax网络层结合的神经网络多分类判别器D(x),输入为p维数据x,输出为m+n+1个的样本类别标签y;其中,m项为大样本类别标签,n项为小样本类别标签,第m+n+1项为生成伪数据标签;(5.2)将所述训练数据集和补充数据集X′混合,并作为真实数据x~Pdata,将生成数据表示为x~PG,将x输入多分类判别器,得到softmax输出对应每个类别的概率值p(y|x)。(5.3)构建分类判别器的损失函数:(5.4)通过误差反向传播算法更新网络参数,优化分类判别器模型,直至判别器的损失函数收敛;(6)生成器训练阶段,具体包括如下步骤:(6.1)为小样本生成器内的n个独立的生成器分别构建损失函数,其中第i个生成器的损失函数为:(6.2)通过误差反向传播算法更新网络参数,优化生成器模型,直至生成的数据能够骗过判别器的真伪判别,即生成器损失函数收敛。(6.3)重复步骤(2.1)-(6.2),直至所述补充数据集的动态表对应的每一个样本序列被填满,完成对对抗增强故障分类器的训练。(7)当有新的数据需要对其进行故障分类时,将该数据输入到训练好的对抗增强故障分类器中,将softmax网络层的y=m+n+1项的概率忽略,求取每个故障类别的后验概率,根据最大后验概率,将该数据与该类别进行匹配,实现该数据的故障分类。与现有技术相比,本专利技术具有如下有益效果:通过上述过程的不断迭代,生成器生成的数据逐渐趋近真实样本,补充数据集的动态表对应的样本序列被生成数据更新,小类别通过生成数据的补充消除了原有数据集的不平衡性。同时,通过数据筛选将生成器的生成数据中的高质量数据保留了下来,进一步提升了分类器的性能。本专利技术提出的对抗增强分类方法是一种端到端的模型,是一种更为方便的利用生成数据的数据增强方法。附图说明图1是一种面向工业不平衡数据的对抗增强故障分类器的训练流程图;图2是TennesseeEastman(TE)过程流程图;图3是对抗增强故障分类器和其他过采样法的分类结果对比。具体实施方式下面结合附图对本专利技术基于一种工业不平衡数据的对抗增强故障分类方法作进一步的详述。本专利技术采用的对抗增强故障分类器从结构上分四个部分,第一部分为小样本生成器:由n个单生成器组成,每个单生成器对应每一种需要补充数据的小样本类型,第二部分为数据筛选器:基于主元空间的马氏距离对本文档来自技高网...

【技术保护点】
1.一种面向工业不平衡数据的对抗增强故障分类方法,其特征在于,具体包括以下步骤:/n(1)采集历史工业过程中的离线数据作为原始数据集X,X中包含m种大样本数据X

【技术特征摘要】
1.一种面向工业不平衡数据的对抗增强故障分类方法,其特征在于,具体包括以下步骤:
(1)采集历史工业过程中的离线数据作为原始数据集X,X中包含m种大样本数据Xbig与n种小样本数据Xsmall,即X={Xbig,Xsmall}={(xi,yi)},其中yi∈{1,2,...,m+n},i表示样本个数,且m种大样本的样本数相同,而小样本数据的样本数少于大样本;对原始数据集X进行预处理,将其通过线性函数将原始数据线性化的方法转换到[0,1]范围,得到训练数据集
(2)数据生成阶段,具体包括如下子步骤:
(2.1)小样本生成器为不平衡数据的n种小样本数据构建n个生成器的结构,每个所述小样本生成器均为结构相同的全连接神经网络,其输入为高斯噪音z,维数为p;其输出为生成数据的特征,维数为q;n个生成器之间相互独立,构成并行的多生成器结构;在高斯噪声z输入生成器之前,先将每个小样本生成器网络的超参数进行初始化;
(2.2)通过随机函数生成均值为0、方差为0.1的高斯噪音z。将高斯噪音z输入所述小样本生成器,生成器输出n组生成数据G(z)={G1,G2,…,Gn};
(3)数据筛选阶段,具体包括如下步骤:
(3.1)对所述训练数据集做主元分析,得到参考主元矩阵T1,分别将所述生成数据G(z)投影到参考主元空间得到对应主元矩阵T2;参考主元矩阵T1通过累计方差百分比达到98%,确定参考主元矩阵T1中的主元个数;对应主元矩阵T2中的主元个数与参考主元矩阵T1中的主元个数相等。
(3.2)分别对所述参考主元矩阵T1内的小样本数据质心求马氏距离MD1max的最大值,得到不同类别下的最远距离通过所述MD1max确定数据筛选的阈值上限值为kMD1max,k为筛选系数。
(3.3)对所述对应主元矩阵T2与参考主元矩阵T1所对应的小样本质心求马氏距离将MD2与kMD1max进行比较,若则认为所述生成数据G(z)接近训练数据集为有效点Gvalid;若此时认为所述生成数据G偏离训练数据集为离群噪点Ginvalid。
(3.4)将有效点Gvalid从所述生成数据G(z)集中提取出来,并给它们相应的类别标签y,...

【专利技术属性】
技术研发人员:葛志强江肖禹
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1