基于加权极限学习机集成算法的污水处理故障诊断方法技术

技术编号:15691527 阅读:153 留言:0更新日期:2017-06-24 04:48
本发明专利技术公开了一种基于加权极限学习机集成算法的污水处理故障诊断方法,包括:采用集成算法Adaboost作为分类学习的整体算法框架;采用改进后的样本权值初始化方法;采用加权极限学习机作为基分类器,通过集成算法迭代更新样本权值的特性,处理不平衡数据,结合核函数的非线性映射来提高数据线性可分的程度。该方法在集成算法的基础上采用了加权极限学习机作为基分类器,可以实现多个类别的不平衡数据分类,增强了对不平衡数据的分类性能,有效提高了污水处理过程中故障诊断的准确性。

Fault diagnosis method of sewage treatment based on weighted limit learning machine ensemble algorithm

The invention discloses a machine learning algorithm based on weighted integrated wastewater treatment limit fault diagnosis methods, including: the overall algorithm framework using integrated Adaboost algorithm as the classification of learning; the sample weight initialization method is improved; the weighted extreme learning machine as base classifier, updating the sample weight by integrating iterative algorithm, processing unbalanced data, combined with the nonlinear mapping kernel function to improve the degree of linear separable data. This method uses a weighted limit based on an integrated algorithm of machine learning as the base classifier, imbalanced data classification can achieve multiple categories, to enhance the classification performance of unbalanced data, effectively improve the accuracy of fault diagnosis in the process of wastewater treatment.

【技术实现步骤摘要】
基于加权极限学习机集成算法的污水处理故障诊断方法
本专利技术涉及污水处理故障诊断的
,具体涉及一种基于加权极限学习机集成算法的污水处理故障诊断方法。
技术介绍
污水处理是一个复杂的、影响因素非常多的生化过程,污水处理厂难以保持长期稳定的运行,发生故障容易引起出水水质不达标、运行费用增高和环境二次污染等严重问题,所以需要对污水处理厂运行状态进行监控,诊断出运行故障并及时处理。污水处理过程的故障诊断实际是一个模式识别的问题,分类过程中常常还会遇到污水数据集的分布不均衡问题。传统的机器学习方法容易使分类准确率偏向于多数类,而实际分类中更加看重的是少数类的分类准确率,即故障类的分类准确率。及时准确的发现故障可以很大程度上减少污水处理厂的损失,另一方面提高污水处理厂的工作效率。
技术实现思路
本专利技术的目的是为了解决现有技术中的上述缺陷,提供一种基于加权极限学习机集成算法的污水处理故障诊断方法。本专利技术的目的可以通过采取如下技术方案达到:一种基于加权极限学习机集成算法的污水处理故障诊断方法,所述方法包括:S1、采用集成学习算法AdaBoost作为不平衡数据分类的整体算法框架,将不平衡数据的最优类分布和最优类代表样例的寻找与集成学习中的多次采样技术融合,并生成集成分类器;S2、采用改进后的集成算法权值初始化方法进行初始化;S3、采用改进后的加权极限学习机作为集成学习算法的基分类器进行迭代;S4、输入污水处理过程中产生的样本数据,设置集成算法的基分类器个数T,基分类器的最优核宽度γ,对应的最优正则化系数C,进行迭代,对输入的污水数据进行分类即故障诊断。进一步地,所述步骤S1具体包括:S11、给定污水样本集{(x1,y1),(x2,y2),…,(xN,yN)},其中xi∈X表示X的第i个样本,yi表示其对应的类别标签,yi∈Y={1,2,…,k},k表示总共有k个类别;S12、初始化训练样本xi的权重分布D(i):i=1,2,…,N;S13、训练弱分类器;S14、得到集成分类器。进一步地,所述步骤S13具体包括:S131、设置集成算法的基分类器个数T;S132、使用加权核极限学习机作为基分类器ht对训练样本进行训练,得到训练模型和训练误差εt,若样本分类正确则不计入误差,若所有样本都被正确分类则误差为0,若样本分类错误则计入误差;S133、若εt≥0.5,则退出迭代;S134、计算基分类器ht的权重S135、调整样本下一轮迭代的权值分布Dt+1,Dt+1的调整规则如下所示:Dt+1(i)=Dt(i)exp(-αt*I(xi)),进一步地,所述集成分类器为:进一步地,所述改进后的集成算法权值初始化方法包括:第一自动加权方案W1和第二自动加权方案W2,其中,所述第一自动加权方案W1具体为:所述第二自动加权方案W2具体为:其中Count(k)为训练样本中类别为k对应的样本数量。进一步地,其特征在于,所述改进后的加权极限学习机的隐藏层输出权重可表示为:其中,H为隐藏层输出矩阵,T为输出层输出矩阵,N为样本个数,L为隐藏层的个数,其中W是定义的一个N×N的对角矩阵,每一个主对角元素Wii都对应着一个样本xi,不同类别的样本将会自动分配不同的权值。进一步地,所述改进后的加权极限学习机在权值的分配方式上采用AdaBoost的权值更新公式,即Wii=Dt+1(i)=Dt(i)exp(-αt*I(xi)),进一步地,所述步骤S4具体为:设置集成分类器的基分类器个数T=20,并采用网格参数寻优的方式寻找满足算法最优性能的基分类器的核宽度γ和正规化系数C,γ的寻优范围为{2-18,2(-18+step),…,220},step=0.5;C的寻优范围为{2-18,2(-18+step),…,250},其中,step=0.5。本专利技术相对于现有技术具有如下的优点及效果:1)本专利技术方法采用AdaBoost算法作为整体算法框架,不平衡数据的最优类分布和最优类代表样例的寻找可以与集成学习中的多次采样技术融合在一起,避免额外的学习代价。此外,多个分类器的集成可以防止过拟合,降低单分类器在处理不平衡数据时可能产生的偏差。2)本专利技术方法采用改进后的集成算法权值初始化方法,使整个算法能够更好的解决数据类间分布不平衡问题。3)采用加权极限学习机的分类器作为集成学习算法的基分类器,加快分类学习速度,从而实现对污水处理厂运行状态实时准确地监测。附图说明图1是本专利技术中公开的基于加权极限学习机集成算法的故障诊断方法的流程图;图2是本专利技术中公开的基于加权极限学习机集成算法的故障诊断方法的另一流程图;图3是本专利技术实施例中步骤Ada1-WKELM模型与Ada2-WKELM模型对于污水样本集进行分类的准确率对比图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例请参见附图1和图2,附图1和附图2是本实施例中依据基于加权极限学习机集成算法的污水处理故障诊断方法的流程图。实验仿真的数据来来自加州大学数据库(UCI),是一个污水处理厂的日常监控数据,整个数据集每个样本维数为38,全部属性值都完整的记录有380个,被监测的水体一共有13种状态,各个状态用数字代替。为了简化分类的复杂度,我们根据样本类别的性质,将样本分为4大类,如表1。表1中,类别1为正常情况,类别2为性能超过平均值的正常情况,类别3为进水流量低的正常情况,类别4为二沉池故障、暴雨引起的非正常状态和固体溶度过负荷等原因引起的故障情况。正常情况的类别1样本的个数比较多,属于多数类;而类别3和类别4由于样本个数比较少,故属于少数类,经过数据类别的化简,四类样本的分布比例为39.6:14.6:8:1。具体过程如下:S1、采用集成学习算法AdaBoost作为不平衡数据分类的整体算法框架,将不平衡数据的最优类分布和最优类代表样例的寻找与集成学习中的多次采样技术融合,并生成集成分类器;不平衡数据的最优类分布和最优类代表样例的寻找可以与集成学习中的多次采样技术融合在一起,避免额外的学习代价。此外,多个分类器的集成可以防止过拟合,降低单分类器在处理不平衡数据时可能产生的偏差。具体应用中,该步骤S1具体包括:S11、给定污水样本集{(x1,y1),(x2,y2),…,(xN,yN)},其中xi∈X表示X的第i个样本,yi表示其对应的类别标签,yi∈Y={1,2,…,k},k表示总共有k个类别;S12、初始化训练样本xi的权重分布D(i):i=1,2,…,N;S13、训练弱分类器;S14、得到集成分类器。具体应用中,该训练弱分类器步骤具体包括:S131、设置集成算法的基分类器个数T;S132、使用加权核极限学习机作为基分类器ht对训练样本进行训练,得到训练模型和训练误差εt,若样本分类正确则不计入误差,若所有样本都被正确分类则误差为0,若样本分类错误则计入误差;S133、若εt≥0.5,则退出迭代;S134、计算基分类器ht的权重εt越大αt越小,表示训练误差越本文档来自技高网...
基于加权极限学习机集成算法的污水处理故障诊断方法

【技术保护点】
一种基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述方法包括:S1、采用集成学习算法AdaBoost作为不平衡数据分类的整体算法框架,将不平衡数据的最优类分布和最优类代表样例的寻找与集成学习中的多次采样技术融合,并生成集成分类器;S2、采用改进后的集成算法权值初始化方法进行初始化;S3、采用改进后的加权极限学习机作为集成学习算法的基分类器进行迭代;S4、输入污水处理过程中产生的样本数据,设置集成算法的基分类器个数T,基分类器的最优核宽度γ,对应的最优正则化系数C,进行迭代,对输入的污水数据进行分类即故障诊断。

【技术特征摘要】
1.一种基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述方法包括:S1、采用集成学习算法AdaBoost作为不平衡数据分类的整体算法框架,将不平衡数据的最优类分布和最优类代表样例的寻找与集成学习中的多次采样技术融合,并生成集成分类器;S2、采用改进后的集成算法权值初始化方法进行初始化;S3、采用改进后的加权极限学习机作为集成学习算法的基分类器进行迭代;S4、输入污水处理过程中产生的样本数据,设置集成算法的基分类器个数T,基分类器的最优核宽度γ,对应的最优正则化系数C,进行迭代,对输入的污水数据进行分类即故障诊断。2.根据权利要求1所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述步骤S1具体包括:S11、给定污水样本集{(x1,y1),(x2,y2),…,(xN,yN)},其中xi∈X表示X的第i个样本,yi表示其对应的类别标签,yi∈Y={1,2,…,k},k表示总共有k个类别;S12、初始化训练样本xi的权重分布D(i):i=1,2,…,N;S13、训练弱分类器;S14、得到集成分类器。3.根据权利要求2所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述步骤S13具体包括:S131、设置集成算法的基分类器个数T;S132、使用加权核极限学习机作为基分类器ht对训练样本进行训练,得到训练模型和训练误差εt,若样本分类正确则不计入误差,若所有样本都被正确分类则误差为0,若样本分类错误则计入误差;S133、若εt≥0.5,则退出迭代;S134、计算基分类器ht的权重S135、调整样本下一轮迭代的权值分布Dt+1,Dt+1的调整规则如下所示:Dt+1(i)=Dt(i)exp(-αt*I(xi)),4.根据权利要求2所述的基于加权极限学习机集成算法的污水处理故障诊断方法,其特征在于,所述集成分类器为:

【专利技术属性】
技术研发人员:许玉格孙称立陈立定
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1