一种基于不平衡数据集的地铁故障数据分类方法技术

技术编号:25523213 阅读:22 留言:0更新日期:2020-09-04 17:13
本发明专利技术公开了一种基于不平衡数据集的地铁故障数据分类方法。该方法包括以下步骤:输入原不平衡数据集,并将不平衡数据集划分为训练数据集与测试数据集;将训练数据集分为正类样本集和负类样本集,其中正类样本集为少数类样本、负类样本集为多数类样本;利用K‑Means聚类算法,将正类样本集划分为K个不同的簇;针对每个簇,使用改进的SMOTE算法对数据集采样,最终得到一个平衡数据集;将SVM作为弱分类器,并以AdaBoost算法构建集成分类器;使用测试数据集对集成分类器的性能进行评估。本发明专利技术能够在保证整体正确率的同时,有效提高不平衡数据集中少数类样本的识别率,在非均衡数据集的分类预测中具有更好的效果。

【技术实现步骤摘要】
一种基于不平衡数据集的地铁故障数据分类方法
本专利技术属于数据挖掘
,特别是一种基于不平衡数据集的地铁故障数据分类方法。
技术介绍
地铁在长时间运行过程中,设备出现故障的几率很高,若是不能及时处理,会造成很大损失,因此及时、有效地对地铁进行故障诊断显得日益重要。在故障诊断中,故障数据分类是其关键技术。分类方法广泛应用于预测领域,而大多数分类方法都要求数据的分布较为均匀。若数据的分布严重不平衡时,少数类数据很有可能被当作噪声处理。现实生活中的数据往往呈现不平衡分布的特点,即在数据集中,不同类别的样本数量相差很大。数量较多的样本为多类样本,数量较少的样本称为少类样本。在大多数情况下,对少数类样本的错分往往会带来更大的损失,因此对少类样本的研究更具有价值意义。目前,国内外学者主要从三个方面对不平衡数据集分类进行研究,即数据层面、算法层面以及综合层面。数据层面的方法是指通过重采样技术使数据集达到平衡,根据采样对象的不同可以分为过采样、欠采样以及混合采样。算法层面的方法使模型在训练过程中更加注重于少类样本的识别,主要方法有代价敏感学习、集成学习和单类学习。综合层面的方法将重采样技术与分类算法相结合,提高分类器性能。武汉大学提出的专利申请“一种基于数据欠采样和集成学习的软件缺陷数目预测方法”(申请号:201710548391.4,公开号:CN107391452A)中,利用随机欠采样技术删除缺陷数据集中缺陷数目为零的软件模块,得到相对平衡的新数据集,然后利用相对平衡的缺陷数据集训练出若干个弱的软件缺陷数目预测模型,最后集成这些弱的软件缺陷数目预测模型来预测待预测的软件模块的缺陷数目。该方法存在的不足之处是:欠采样技术在删除样本的同时,容易将含有重要信息的样本删除。王和勇、繁泓坤等在文献“SMOTE和Biased-SVM相结合的不平衡数据分类”中,对不平衡数据集使用Biased-SVM方法,然后使用SMOTE算法对正类样本采样从而获得平衡数据集,最后再使用Biased-SVM方法进行分类,该方法存在的不足之处是:传统的SMOTE算法对样本的空间分布考虑不足,并缺少对合成样本的判断规则,导致合成的正类样本侵入负类样本的分布空间,影响数据分类效果。
技术实现思路
本专利技术的目的在于提供一种基于不平衡数据集的地铁故障数据分类方法,在保证整体正确率的同时,有效提高不平衡数据中对少数类样本的识别率。实现本专利技术目的的技术解决方案为:一种基于不平衡数据集的地铁故障数据分类方法,该方法包括以下步骤:步骤1、从地铁运行数据中获取实验所需的不平衡数据集D;步骤2、将数据集D划分为训练数据集DTrain和测试数据集DTest;步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,其中Nmin为少数类样本、Nmaj为多数类样本,并计算待采样样本的数量:T=Nmaj-Nmin;步骤4、使用k-Means聚类算法对正类样本集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k;步骤5、针对每个簇,使用具有近邻样本规则约束的SMOTE算法进行采样,直至采样完成;步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;步骤7、选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器;步骤8、使用平衡数据集对集成分类器模型进行训练;步骤9、使用测试数据集DTest对步骤8训练好的模型进行性能评估,并完成地铁故障数据的分类。进一步地,步骤2所述将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:2.1)将不平衡数据集随机分为样本数一致的5份;2.2)从5份样本中任意选择1份作为测试数据集DTest,其他4份样本作为训练数据集DTrain。进一步地,步骤4所述使用k-Means聚类算法对正类样本集Nmin进行聚类,具体步骤如下:4.1)输入数据为正类样本集Nmin和待聚类簇的个数k;4.2)随机产生k个初始簇心:c1,c2,...,ck;4.3)对于正类样本集Nmin中的每个数据样本,分别计算样本距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;4.4)将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;4.5)重复步骤4.3)~步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数,聚类完毕。进一步地,步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样,具体步骤如下:5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新的正类样本;5.2)判断合成的新的正类样本是否符合近邻样本规则,若符合,将合成样本加入训练数据集;否则将该合成样本删除,返回步骤5.1)重新采样;5.3)判断合成的新的正类样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。进一步地,步骤5.1)中所述使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,具体步骤如下:5.1.1)输入数据为不平衡数据集D,待合成的样本数T,近邻参数k,空集合Dnew;5.1.2)对于正类样本集Nmin中的每个数据样本xi,计算xi的k个同类近邻样本;5.1.3)在k个同类近邻样本中选择一个样本xij,使用下式合成新的正类样本xnew:xnew=xi+rand(0,1)×(xij-xi)将新的正类样本xnew加入Dnew,其中rand(0,1)用于产生0-1之间的随机数;5.1.4)重复步骤5.1.2)~步骤5.1.3),直至完成T个合成样本的采样。进一步地,步骤5.2)中所述近邻样本规则,定义如下:对SMOTE算法合成的每个正类样本,判断该合成样本的k个近邻样本的类别,若近邻样本均属于正类,将合成样本加入训练集;若近邻样本均属于负类,则将该样本删除,返回步骤5.1)重新采样。进一步地,步骤7所述选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器,具体步骤如下:7.1)输入训练样本集,包含m个样本(x1,y1),(x2,y2)...(xm,ym),其中xi为样本点,yi∈{-1,1}为样本的标签信息,输入RBFSVM的参数e初始值eini,e的最小值emin,步长estep和最大循环次数T;7.2)初始化样本权重值w1(i)=1/m;7.3)当e>emin且当前循环次数t<T时循环以下步骤7.3.1)~步骤7.3.5),否则进入步骤7.4):7.3.1)在加权训练样本集上用RBFSVM算法训练弱分类器Ct得到ht;7.3.2)计算ht在训练集上的分类误差率7.3.3)如果xt>0.5,则e=e-estep,t=t+1,返回至步骤7.3.1)本文档来自技高网
...

【技术保护点】
1.一种基于不平衡数据集的地铁故障数据分类方法,其特征在于,该方法包括以下步骤:/n步骤1、从地铁运行数据中获取实验所需的不平衡数据集D;/n步骤2、将数据集D划分为训练数据集D

【技术特征摘要】
1.一种基于不平衡数据集的地铁故障数据分类方法,其特征在于,该方法包括以下步骤:
步骤1、从地铁运行数据中获取实验所需的不平衡数据集D;
步骤2、将数据集D划分为训练数据集DTrain和测试数据集DTest;
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj,其中Nmin为少数类样本、Nmaj为多数类样本,并计算待采样样本的数量:T=Nmaj-Nmin;
步骤4、使用k-Means聚类算法对正类样本集Nmin进行聚类,得到k个簇Ci,i=1,2,...,k;
步骤5、针对每个簇,使用具有近邻样本规则约束的SMOTE算法进行采样,直至采样完成;
步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集;
步骤7、选择SVM分类器作为AdaBoost算法的基分类器,构建集成分类器;
步骤8、使用平衡数据集对集成分类器模型进行训练;
步骤9、使用测试数据集DTest对步骤8训练好的模型进行性能评估,并完成地铁故障数据的分类。


2.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤2所述将数据集D划分为训练数据集DTrain和测试数据集DTest,具体步骤如下:
2.1)将不平衡数据集随机分为样本数一致的5份;
2.2)从5份样本中任意选择1份作为测试数据集DTest,其他4份样本作为训练数据集DTrain。


3.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤4所述使用k-Means聚类算法对正类样本集Nmin进行聚类,具体步骤如下:
4.1)输入数据为正类样本集Nmin和待聚类簇的个数k;
4.2)随机产生k个初始簇心:c1,c2,...,ck;
4.3)对于正类样本集Nmin中的每个数据样本,分别计算样本距离步骤4.2)中k个簇心的距离,并将该样本划分到距离最近的簇心所属的簇中;
4.4)将所有数据划分到相应的簇中后,计算各个簇中数据样本的均值,并以此均值作为新的簇心,完成对c1,c2,...,ck的更新;
4.5)重复步骤4.3)~步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数,聚类完毕。


4.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法,其特征在于,步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样,具体步骤如下:
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样,合成新的正类样本;
5.2)判断合成的新的正类样本是否符合近邻样本规则,若符合,将合成样本加入训练数据集;否则将该合成样本删除,返回步骤5.1)重新采样;
5.3)判断合成的新的正类样本数量是否达到待采样样本数量T,若是则采样过程完成,否则返回步骤5.1)继续采样。


5.根据权利要求4所述的基于不平衡...

【专利技术属性】
技术研发人员:张永左婷婷谢志鸿方立超单梁徐志良
申请(专利权)人:南京理工大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1