当前位置: 首页 > 专利查询>东北大学专利>正文

基于图半监督代价敏感的工业大数据早期故障检测方法技术

技术编号:17733346 阅读:63 留言:0更新日期:2018-04-18 11:02
本发明专利技术提供一种基于图半监督代价敏感的工业大数据早期故障检测方法,涉及故障检测与诊断技术领域。该方法首先采集工业过程的数据,采用图半监督的标签传播方法对未标记数据的标签进行一次更新,并圈定疑似早期故障;然后针对疑似早期故障点进行代价敏感的贝叶斯分类,完成对疑似早期故障数据点标签的二次更新;最后建立EDC‑SVM分类器,对工业过程进行在线故障诊断。本发明专利技术提供的基于图半监督代价敏感的工业大数据早期故障检测方法,以诊断代价最小化为故障诊断目标,划分出疑似早期故障,解决了工业故障检测误分类代价高的问题。同时在保证分类准确性的情况之下,降低了故障检测中的误判代价,提高了工业过程的安全性。

An early fault detection method for industrial large data based on graph semi supervised cost sensitive

The invention provides an early fault detection method for industrial large data, which is based on the semi supervised cost sensitive graph, and involves the field of fault detection and diagnosis. Firstly, collecting industry data, using the method of semi supervised label propagation graph an update on unlabeled data labels, and delineation of suspected early fault; then the suspected early fault point Bias cost sensitive classification, the completion of the two update suspected early fault data point labels; finally the establishment of EDC SVM classifier for on-line fault diagnosis of industrial process. The method based on graph semi supervised cost sensitive method for early fault detection of industrial large data is provided by the invention, which minimizes the cost of diagnosis for the fault diagnosis target, divides the suspected early faults, and solves the problem of high error classification of industrial fault detection. At the same time, in the case of ensuring the accuracy of the classification, the cost of misjudgment in the fault detection is reduced and the safety of the industrial process is improved.

【技术实现步骤摘要】
基于图半监督代价敏感的工业大数据早期故障检测方法
本专利技术涉及故障检测与诊断
,尤其涉及一种基于图半监督代价敏感的工业大数据早期故障检测方法。
技术介绍
随着现代工业的迅速发展,现代企业中生产设备日趋大型化、连续化、高速化和自动化,设备的结构与组成十分复杂,生产规模非常庞大,各部门之间的联系也特别密切。实际的生产过程有线性的、非线性的、时不变的、时变的等,对于不同的生产过程所具有的特征,应选用不同的故障监测方法,这样才能有效地检测到故障。传统的分类算法通常以全局分类误分率最小化为目标,并假设各类的错分代价相等以及数据集是平衡的。而在某些工业生产监控过程中,这两种假设不成立。由于危害程度不同,设备的误诊断代价不对等,将故障状态误诊断为正常状态所需要承担的安全隐患和经济损失等代价往往大于相反情况时的代价。另外,由于故障样本的获取是以设备某种程度的损坏为代价,所以,相对于正常样本,故障样本的数量会少得多,这种样本不均衡性导致以分类准确率为性能指标的故障诊断方法的结论更倾向于正常状态的判定,不能有效地避免故障带来的损失。因此,以误分率最小化为目标已不能满足实际的故障诊断要求。
技术实现思路
针对现有技术的缺陷,本专利技术提供一种基于图半监督代价敏感的工业大数据早期故障检测方法,以诊断代价最小化为故障诊断目标实现故障检测。基于图半监督代价敏感的工业大数据早期故障检测方法,包括以下步骤:步骤1:采集工业过程的视频数据,并提取关键帧,进行灰度处理,获得二十维的特征变量,同时提取工业过程的电流数据,将电流数据与视频异构数据协同建模,并将采集的数据分为故障数据和正常数据进行标记;总的采样数据为X=[x1,x2,...,xl,xl+1,...,xl+u]∈RD×(l+u),其中,xi为第i个采样数据,i=1、…、t,t=l+u为采样数据总数,l为已标记数据的个数,u为未标记数据的个数,且u>>l,D为数据维数;第il个已标记数据的类标签记为yi∈{1、2、...、S},il=1、…、l,其中S为分类的总类别数;步骤2:采用图半监督的标签传播方法对未标记数据的标签进行一次更新,得到采样数据所属类别的概率值,并圈定疑似早期故障点;步骤2.1:对未标记数据的标签进行一次更新,具体方法为:将(x1,y1)、…、(xl,yl)表示为已标记数据,FL=(y1,…,yl)为已标记数据的类标签,已标记数据分为正常类和故障类两个类别;将(xl,yl)、…、(xl+u,yl+u)表示为未标记数据,FU=(yl,...,yl+u)为未知的未标记数据的类标签;将已标记数据和未标记数据建立一个全连接图,每个数据节点都与其他所有数据节点相连接;全连接图中数据节点之间边的权重值设定如下公式所示:wij=exp(-||xi-xj||/σ)其中,xi和xj分别为全连接图中的第i个和第j个数据节点,i、j=1,2,…,t;wij为数据节点xi和x之间边的权重值,σ为控制节点间权重值范围的权重参数;构造概率转移矩阵P,其中的每一个元素为其中,为所有t个数据点中每一个数据点与第j个数据节点之间边的权重值之和;将得到的概率转移矩阵P进行标准化得到的每一个元素为定义t×2的标签矩阵F,第一列元素Fi1为采样数据属于正常类的概率值,第二列元素Fi2为采样数据属于故障类的概率值;若采样数据中的已标记数据属于正常类,则Fi1=1,Fi2=0;若采样数据中的已标记数据属于故障类则Fi1=0,Fi2=1;对标签矩阵F进行有限次迭代,每次迭代的结果为:其中,F(k)为标签矩阵F第k步的迭代结果,F(k+1)为标签矩阵F第k+1步的迭代结果;将标签矩阵F进行切分,得到FL为已标记数据的标签矩阵,用已标记数据的标签对其初始化;FU为未标记数据的标签,为未知矩阵,同时将标准化的概率转移矩阵进行切分,得到利用已标记数据的标签矩阵FL,将标签矩阵F的迭代结果中未标记部分进一步表示为:FU(k+1)和FU(k)分别为未标记数据标签的第k+1步与第k步的迭代结果;进一步得到未标记数据标签传播的结果,如下式所示:其中,为未标记数据的一次更新标签,FU(0)为初始化未标记数据标签;因为为行标准化后矩阵,其无穷范数小于等于1,为的子矩阵,所以的无穷范数小于等于1,的谱半径小于其无穷范数,的谱半径小于1,得出推论出标签传播结果最终收敛至:I为t阶单位矩阵;标签矩阵F的最终结果为步骤2.2:根据未知数据标签一次传播之后的样本概率归属圈定疑似早期故障点的范围,具体方法为:若采样数据的标签一次更新结果满足条件,则视为该采样数据点为疑似早期故障点,其中δ为疑似早期故障圈定参数,均为标签矩阵F*中第i行的元素,分别代表采样数据标签一次更新后属于正常类与故障类的概率,根据采样数据的标签一次更新结果满足的条件,确定m个疑似早期故障点;否则,该采样数据点不是疑似早期故障点,则确定该采样数据点的标签为i′=1,2,...,t-m;步骤3:针对疑似早期故障点进行代价敏感的贝叶斯(即CS-Bayes)分类,以最小化条件代价敏感风险为目标完成对疑似早期故障数据点标签的二次更新,具体方法为:首先根据疑似早期故障数据点的所属类别概率确定该数据点的后验概率为:其中im=1,2,...,m,为疑似早期故障数据点属于正常类的后验概率,Hnf和Hfn分别为故障数据的误判率和正常数据的误判率;代价敏感分类器通过如下函数实现最小化条件代价敏感风险:EY[L(f(x),y)|x]=ηL(f(x),1)+(1-η)L(f(x),-1)其中L(f(x),1)为数据属于正常类的代价折页损失函数,f(x)为分类器的分类函数,L(f(x),y)=cymax(0,1-f(x)y)为损失函数,其中y为标签,cy为代价参数;根据Bayes决策理论,最优决策应最小化期望分类代价,得到Bayes分类器为:其中,C+为正常类误分类代价,C-为故障类误分类代价,且C+<C-;因此,得到代价敏感分类函数的最优解为:其中,为第im个疑似早期故障的分类结果,即为针对疑似早期故障进行CS-Bayes后的二次标签更新后的结果;步骤4:建立样例代价敏感支持向量机(即Exampledependentcost-sensitivesupportvectormachine,简称EDC-SVM)分类器,具体方法为:步骤4.1:构造代价敏感支持向量机优化目标函数,如下式所示:其中,为疑似早期故障类中的数据集中的第im个数据点,根据步骤3得到的标签二次更新结果,m+和m-分别为m个疑似早期故障数据点中正常类和故障类数据点的个数,为疑似早期故障数据点的样例代价,Cratio=C-/C+为由经验值确定的类间代价之比,为松弛变量,ω与b为确定分类超平面的参数,C为控制目标函数中硬间隔目标函数与代价惩罚项之间的权重的参数,为非线性映射函数;将代价敏感支持向量机优化目标函数转化为如下对偶问题,得到最优分类超平面:其中,为核函数,分别为第im个和第jm个约束的拉格朗日乘子,jm=1,2,...,m,样例代价由疑似早期故障类到对应类中心的高维空间的马氏距离确定;步骤4.2:求解疑似早期故障数据点的样例代价,具体方法为:疑似早期故障数据点第im个数据点本文档来自技高网...
基于图半监督代价敏感的工业大数据早期故障检测方法

【技术保护点】
一种基于图半监督代价敏感的工业大数据早期故障检测方法,包括以下步骤:步骤1:采集工业过程的视频数据,并提取关键帧,进行灰度处理,获得二十维的特征变量,同时提取工业过程的电流数据,将电流数据与视频异构数据协同建模,并将采集的数据分为故障数据和正常数据进行标记;总的采样数据为X=[x1,x2,...,xl,xl+1,...,xl+u]∈R

【技术特征摘要】
1.一种基于图半监督代价敏感的工业大数据早期故障检测方法,包括以下步骤:步骤1:采集工业过程的视频数据,并提取关键帧,进行灰度处理,获得二十维的特征变量,同时提取工业过程的电流数据,将电流数据与视频异构数据协同建模,并将采集的数据分为故障数据和正常数据进行标记;总的采样数据为X=[x1,x2,...,xl,xl+1,...,xl+u]∈RD×(l+u),其中,xi为第i个采样数据,i=1、…、t,t=l+u为采样数据总数,l为已标记数据的个数,u为未标记数据的个数,且u>>l,D为数据维数;第il个已标记数据的类标签记为yi∈{1、2、...、S},il=1、…、l,其中S为分类的总类别数;步骤2:采用图半监督的标签传播方法对未标记数据的标签进行一次更新,得到采样数据所属类别的概率值,并圈定疑似早期故障点;步骤3:针对疑似早期故障点进行代价敏感的贝叶斯(即CS-Bayes)分类,以最小化条件代价敏感风险为目标完成对疑似早期故障数据点标签的二次更新;步骤4:建立样例代价敏感支持向量机(即Exampledependentcost-sensitivesupportvectormachine,简称EDC-SVM)分类器,具体方法为:步骤4.1:构造代价敏感支持向量机优化目标函数;步骤4.2:求解疑似早期故障数据点的样例代价;步骤4.3:运用改进的序列最小优化算法(即Sequentialminimaloptimization,简称SMO),确定疑似早期故障数据点EDC-SVM分类器的分类超平面;步骤5:使用EDC-SVM分类器对工业过程进行故障检测,具体方法为:采集待诊断的工业过程数据进行故障检测,通过标签传播算法得到数据所属类别概率,若数据不属于疑似早期故障类别,则输出其标签,确定其为正常数据或故障数据;若数据属于疑似早期故障类,通过EDC-SVM分类器得到其所属类别,若属于正类则认为是正常数据,若属于负类,则圈定其为早期故障点,完成工业过程的故障检测。2.根据权利要求1所述的基于图半监督代价敏感的工业大数据早期故障检测方法,其特征在于:步骤2所述对未标记数据的标签进行一次更新,具体方法为:将(x1,y1)、…、(xl,yl)表示为已标记数据,FL=(y1,…,yl)为已标记数据的类标签,已标记数据分为正常类和故障类两个类别;将(xl,yl)、…、(xl+u,yl+u)表示为未标记数据,FU=(yl,...,yl+u)为未知的未标记数据的类标签;将已标记数据和未标记数据建立一个全连接图,每个数据节点都与其他所有数据节点相连接;全连接图中数据节点之间边的权重值设定如下公式所示:其中,xi和xj分别为全连接图中的第i个和第j个数据节点,i、j=1,2,…,t;wij为数据节点xi和xj之间边的权重值,σ为控制节点间权重值范围的权重参数;构造概率转移矩阵P,其中的每一个元素为其中,为所有t个数据点中每一个数据点与第j个数据节点之间边的权重值之和;将得到的概率转移矩阵P进行标准化得到的每一个元素为定义t×2的标签矩阵F,第一列元素Fi1为采样数据属于正常类的概率值,第二列元素Fi2为采样数据属于故障类的概率值;若采样数据中的已标记数据属于正常类,则Fi1=1,Fi2=0;若采样数据中的已标记数据属于故障类则Fi1=0,Fi2=1;对标签矩阵F进行有限次迭代,每次迭代的结果为:其中,F(k)为标签矩阵F第k步的迭代结果,F(k+1)为标签矩阵F第k+1步的迭代结果;将标签矩阵F进行切分,得到FL为已标记数据的标签矩阵,用已标记数据的标签对其初始化;FU为未标记数据的标签,为未知矩阵,同时将标准化的概率转移矩阵进行切分,得到利用已标记数据的标签矩阵FL,将标签矩阵F的迭代结果中未标记部分进一步表示为:FU(k+1)和FU(k)分别为未标记数据标签的第k+1步与第k步的迭代结果;进一步得到未标记数据标签传播的结果,如下式所示:其中,为未标记数据的一次更新标签,FU(0)为初始化未标记数据标签;因为为行标准化后矩阵,其无穷范数小于等于1,为的子矩阵,所以的无穷范数小于等于1,的谱半径小于其无穷范数,的谱半径小于1,得出推论出标签传播结果最终收敛至:I为t阶单位矩阵;标签矩阵F的最终结果为3.根据权利要求2所述的基于图半监督代价敏感的工业大数据早期故障检测方法,其特征在于:步骤2所述根据未知数据标签一次传播之后的样本概率归属圈定疑似早期故障数据点范围的具体方法为:若采样数据的标签一次更新结果满足条件,则视为该采样数据点为疑似早期故障点,其中δ为疑似早期故障圈定参数,均为标签矩阵F*中第i行的元素,分别代表采样数据标签一次更新后属于正常类与故障类的概率,根据采样数据的标签一次更新结果满足的条件,确定m个疑似早期故障点;否则,该采样数据点不是疑似早期故障点,则确定该采样数据点的标签为4.根据权利要求3所述的基于图半监督代价敏感的工业大数据早期故障检测方法,其特征在于:所述步骤3的具体方法为:首先根据疑似早期故障数据点的所属类别概率确定该数据点的后验概率为:其中im=1,2,...,m,为疑似早期故障数据点属于正常类的后验概率,Hnf和Hfn分别为故障数据的误判率和正常数据的误判率;代价敏感分类器通过如下函数实现最小化条件代价敏感风险:EY[L(f(x),y)|x]=ηL(f(x),1)+(1-η)L(f(x),-1)其中L(f(x),1)为数据属于正常类的代价折页损失函数,f(x)为分类器的分类函数,L(f(x),y)=cymax(0,1-f(x)y)为损失函数,其中y为标签,cy为代价参数;根据Bayes决策理论,最优决策应最小化期望分类代价,得到Bayes分类器为:其中,C+为正常类误分类代价,C-为故障类误分类代价,且C+&lt...

【专利技术属性】
技术研发人员:张颖伟郑肇默冯琳
申请(专利权)人:东北大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1