一种Fast RVM污水处理在线故障诊断方法技术

技术编号:15390912 阅读:100 留言:0更新日期:2017-05-19 04:25
本发明专利技术公开了一种Fast RVM污水处理在线故障诊断方法,包括步骤:1)剔除掉污水数据中属性不完整的样本,将其归一化到[0,1]区间中,确定历史数据集和更新测试集;2)采用基于聚类的快速相关向量机方法对历史数据集的多数类数据压缩;3)根据虚拟少数类向上采样方法对历史数据集的少数类数据扩充;4)建立“一对一”的快速相关向量机多分类训练模型;5)从更新测试集中添加新样本到模型中进行测试,并更新历史数据集;6)回到步骤2),重新处理不平衡的历史数据,训练模型,不断重复上述过程,直到在线测试数据完毕。本发明专利技术有效地降低了污水数据的不平衡性,提高了分类准确率,加快在线更新速度,对于实时诊断出运行故障,保证污水处理厂安全运行。

An on-line fault diagnosis method for Fast RVM wastewater treatment

The invention discloses a Fast RVM sewage treatment online fault diagnosis method, which comprises the following steps: 1) removed data attributes in incomplete sewage samples, which was normalized to [0,1] range, determine the historical data set and update the test set; 2) using the fast clustering based on relevance vector machine method to compress the most the data of the historical data set; 3) according to the sampling method of virtual minority class extension of minority class data historical data set; 4) the establishment of \a pair of fast relevance vector machine a\ multi classification training model; 5) from the update test set to add new samples to the model test, and update the historical data set; 6) go back to step 2), re processing of historical data, unbalanced training model, repeating the process, until the completion of the online testing data. The invention effectively reduces the imbalance of the sewage data, improves the classification accuracy rate, speeds up the online updating speed, diagnoses the running fault in real time, and ensures the safe operation of the sewage treatment plant.

【技术实现步骤摘要】
一种FastRVM污水处理在线故障诊断方法
本专利技术涉及污水处理领域,特别涉及一种FastRVM污水处理在线故障诊断方法。
技术介绍
目前,环境保护已经成为我国经济可持续发展的重要基础,随着我国工业经济发展迅速,城市进程不断加快,工业废水的排放量随着工业用水量的增加而快速增长,大部分废水的直接排放又严重污染了江河水体,破坏了生态平衡,间接的影响了人们的生活。污水处理厂作为自然水体的关键保护屏障,其运行好坏将直接影响水环境的安全程度。污水生化处理工艺复杂,影响因素非常多,污水处理厂在实际运行过程中难以保持长期稳定的运行,一旦发生运行故障常常会引起出水水质不达标、运行费用增高和环境二次污染等严重问题。因此,必须对污水处理厂运行状态进行监控,及时诊断出污水处理过程故障并予以处理。污水处理过程运行状态的故障诊断本质上是一个模式分类问题,而在实际状态运行分类中,常常会遇到污水数据集的分布不均衡问题,现有技术存在一定的局限性,在用于不平衡数据分类时,模型分类正确率无法满足要求,给污水生化处理的故障诊断带来了极大的困难;同时在实际过程当中,故障诊断实际上是一个连续的学习过程,其突出的一个特点就是学习不是一次离线进行的,而是数据逐一加入的,不断进行优化的过程。在线学习方法要求在获得下一个数据之前必须完成训练,否则会影响下一步决策的完成,而且污水处理厂的运行出现的故障信息尤为重要,所以在线故障诊断系统更加注重的是快速性和准确性。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于不平衡数据聚类的FastRVM污水处理在线故障诊断方法,通过基于聚类的快速相关向量机方法对多数类数据压缩和虚拟少数类向上采样的方法对少数类数据扩充,降低了污水数据的不平衡性,提高分类准确率,同时采用FastRVM对污水生化处理过程建立多分类模型,加快在线更新速度,从而保证了污水处理过程的在线故障诊断的准率性和实时性。为实现上述目的,本专利技术所提供的技术方案为:一种FastRVM污水处理在线故障诊断方法,包括以下步骤:S1.剔除掉污水数据中属性不完整的样本,由于各输入变量量纲的不同,对其进行归一化处理,归一化到[0,1]区间中,并确定历史数据集xold和更新测试集xnew;S2.将历史数据中的多数类样本采用基于聚类的快速相关向量机方法进行压缩;S3.根据虚拟少数类向上采样的方法对历史数据中的少数类样本进行扩充;S4.将处理后的历史数据中所有类的样本数据重新组合构成新的历史训练集,并建立“一对一”的快速相关向量机多分类训练模型;S5.从更新测试集xnew中添加k个新样本到模型中进行测试,并保存分类测试结果,将其添加到历史数据集中,去掉历史数据集中前k个样本;S6.回到步骤S2,重新处理不平衡的历史数据,训练模型,不断重复上述过程,直到在线更新数据测试完毕,得到最终在线测试结果,从而实现对污水处理过程的在线运行状态的识别。所述的步骤S2,具体为:S201、假设多数类样本集X={x1,x2,…,xi,…,xn}为n个Rd空间的数据,其中d为样本属性的维数,从n个数据对象中随机选择k个对象作为初始的聚类中心;S202、然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类中心中;计算距离的公式如下,假设cj为第j个类的中心,则xi与cj的距离为:S203、根据集合中的点更新每个类的聚类中心,假设第j个类中的样本为即包含了nj个样本,则该类的聚类中心为其中为类中心cj的第m个属性,计算公式如下:S204、不断重复S202、S203步骤,直到标准测度函数收敛为止,采用均方差作为计算标准测度函数,其形式为:S205、将聚类后的多数类样本进行快速相关向量机分类建模,从而可以获取一定数量的相关向量,这些相关向量的个数要比原始多数类数据少得多,并且具有一定的代表性,接着用选取的相关向量代替原来的多数类样本从而对多数类样本的压缩。所述的步骤S3,具体为:S301、对少数类中的每一个样本x,以欧式距离为标准计算它到少数类样本集中每个样本的距离,获得其中k个最近邻,并记录近邻样本的下标;S302、根据向上采样的倍率N,对每一个少数类样本x,从其k个最近邻中随机选取N个样本,记为y1,y2,…,yN;S303、在原样本x与yj(j=1,2,…,N)之间进行随机线性插值,构造新的少数类样本pj,即新样本:pj=x+rand(0,1)*(yj-x),j=1,2,…,N(4)其中rand(0,1)表示区间(0,1)内的一个随机数。步骤S4中,“一对一”的快速相关向量机多分类训练模型,其建立过程如下:处理后的历史数据及可以定义为其中N是数据集的样本个数,n是样本序号,d是样本属性的维数,zn为样本的输入,tn为样本的目标值,预测函数如公式一所示:tn=y(zn;w)+εn(5)其中y(z)的定义如公式(2所示)其中K(z,zi)是核函数,wi为基函数对应的权重,w=[w0,w1,…,wN]T,εn为噪声,服从εn~N(0,σ2),因此tn~N(y(zn,w),σ2)。假设预测目标tn之间相互独立,那么就有:式中Φ是一个N×(N+1)的构造矩阵,为了避免过拟合,需要约束模型中的权值ω,假设其服从高斯分布,α为超参数。当输入一组新的变量的时候,对应的目标值t*为p(t*|t)~p(w,α,σ2|t),根据先验概率分布和似然估计分布,可得权重的后验概率分布:p(ω,α,σ2|t)=p(ω|t,α,σ2)p(α,σ2|t)(8)对上式进行近似处理,最终成了最大化p(α,σ2|t)∝p(t|α,σ2)p(α)p(σ2)的过程,也就是找到参数α和σ2最可能的值αMP、快速相关向量机在训练过程中从空集开始动态地扩充基矩阵Φ,从而增大边际似然函数,或者去掉基矩阵Φ冗余的列来增大目标函数。通过将边界似然函数p(t|α,σ2)取对数,记L(α)=log[p(t|α,σ2)],整理有:其中L(α-i)表示为当αi=∞时,相应的基本向量φi被移除后所对应的边界似然函数的对数,而l(αi)表示边界似然的对数函数中只与αi有关的独立部分。Si被定义为稀疏因子,Qi为质量因子。L(α)有唯一最大值点为:为了最大化L(α),根据公式(10),不断地迭代来寻找到合适的权重,这时超参数α也会对着权重w不断更新,通过不断地更新,可以得到最终的训练模型一些样本点对应的权重为零,那些不为零的点就是相关向量。综上所述,快速相关向量机分类基本算法步骤如下:(1)初始化σ2=0;(2)用单个基向量φi初始化αi,由公式(10)分析整理可得并设置其他的αm(m≠i)为无穷大;(3)计算协方差矩阵Σ、权重矩阵μ并对所有M个基函数φm初始化Sm和Qm;(4)从所有M个基函数φm集合中选择候选的基向量φi;(5)计算(6)若θi>0且αi<∞,重新估计αi;(7)若θi>0且αi=∞,添加φi到模型中并重新估计αi;(8)若θi≤0且αi<∞,删除φi并设置αi=∞;(9)用Laplace逼近方法重新计算协方差矩阵Σ,权重矩阵μ以及相应迭代过程中的Sm和Qm;(10)若收敛或者达到最大迭代次数,则终止程序;否则转步骤(4);终止条件为:任意在模型中的基函数对应的αi,有αi<le12且建立完快速相关向本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/54/201710000827.html" title="一种Fast RVM污水处理在线故障诊断方法原文来自X技术">Fast RVM污水处理在线故障诊断方法</a>

【技术保护点】
一种Fast RVM污水处理在线故障诊断方法,其特征在于,包括以下步骤:S1.剔除掉污水数据中属性不完整的样本,由于各输入变量量纲的不同,对其进行归一化处理,归一化到[0,1]区间中,并确定历史数据集x

【技术特征摘要】
1.一种FastRVM污水处理在线故障诊断方法,其特征在于,包括以下步骤:S1.剔除掉污水数据中属性不完整的样本,由于各输入变量量纲的不同,对其进行归一化处理,归一化到[0,1]区间中,并确定历史数据集xold和更新测试集xnew;S2.将历史数据中的多数类样本采用基于聚类的快速相关向量机方法进行压缩;S3.根据虚拟少数类向上采样的方法对历史数据中的少数类样本进行扩充;S4.将处理后的历史数据中所有类的样本数据重新组合构成新的历史训练集,并建立“一对一”的快速相关向量机多分类训练模型;S5.从更新测试集xnew中添加k个新样本到模型中进行测试,并保存分类测试结果,将其添加到历史数据集中,去掉历史数据集中前k个样本;S6.回到步骤S2,重新处理不平衡的历史数据,训练模型,不断重复上述过程,直到在线更新数据测试完毕,得到最终在线测试结果,从而实现对污水处理过程的在线运行状态的识别。2.根据权利要求1所述的一种FastRVM污水处理在线故障诊断方法,其特征在于,所述的步骤S2,具体为:S201、假设多数类样本集X={x1,x2,…,xi,…,xn}为n个Rd空间的数据,其中d为样本属性的维数,从n个数据对象中随机选择k个对象作为初始的聚类中心;S202、然后对剩余的样本对象则根据与各个聚类中心的距离分别分配到距离最相近的聚类中心中;计算距离的公式如下,假设cj为第j个类的中心,则xi与cj的距离为:S203、根据集合中的点更新每个类的聚类中心,假设第j个类中的样本为即包含了nj个样本,则该类的聚类中心为其中为类中心cj的第m个属性,计算公式如下:S204、不断重复步骤S202、S203,直到标准测度函数收敛为止,采用均方差作为计算标准测度函数,其形式为:S205、将聚类后的多数类样本进行快速相关向量机分类建模,从而获取设定数量的相关向量,这些相关向量的个数要比原始多数类数据少得多,并且具有一定的代表性,接着用选取的相关向量代替原来的多数类样本从而对多数类样本的压缩。3.根据权利要求1所述的一种FastRVM污水处理在线故障诊断方法,其特征在于,所述的步骤S3,具体为:S301、对少数类中的每一个样本x,以欧式距离为标准计算它到少数类样本集中每个样本的距离,获得其中k个最近邻,并记录近邻样本的下标;S302、根据向上采样的倍率N,对每一个少数类样本x,从其k个最近邻中随机选取N个样本,记为y1,y2,…,yN;S303、在原样本x与yj(j=1,2,…,N)之间进行随机线性插值,构造新的少数类样本pj,即新样本:pj=x+rand(0,1)*(yj-x),j=1,2,…,N(4)其中rand(0,1)表示区间(0,1)内的一个随机数。4.根据权利要求1所述的一种FastRVM污水处理在线故障诊断方法,其特征在于,在步骤S4中,“一对一”的快速相关向量机多分类训练模型,其建立过程如下:处理后的历史数据定义为zn∈Rd,tn∈R,其中N是数据集的样本个数,n是样本序号,d是样本属性的维数,zn为样本的输入,tn...

【专利技术属性】
技术研发人员:许玉格邓文凯陈立定
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1