一种基于不平衡数据集的地铁故障数据分类方法技术

技术编号：25523213 阅读：33 留言：0更新日期：2020-09-04 17:13

本发明专利技术公开了一种基于不平衡数据集的地铁故障数据分类方法。该方法包括以下步骤：输入原不平衡数据集，并将不平衡数据集划分为训练数据集与测试数据集；将训练数据集分为正类样本集和负类样本集，其中正类样本集为少数类样本、负类样本集为多数类样本；利用K‑Means聚类算法，将正类样本集划分为K个不同的簇；针对每个簇，使用改进的SMOTE算法对数据集采样，最终得到一个平衡数据集；将SVM作为弱分类器，并以AdaBoost算法构建集成分类器；使用测试数据集对集成分类器的性能进行评估。本发明专利技术能够在保证整体正确率的同时，有效提高不平衡数据集中少数类样本的识别率，在非均衡数据集的分类预测中具有更好的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于不平衡数据集的地铁故障数据分类方法
本专利技术属于数据挖掘
，特别是一种基于不平衡数据集的地铁故障数据分类方法。
技术介绍
地铁在长时间运行过程中，设备出现故障的几率很高，若是不能及时处理，会造成很大损失，因此及时、有效地对地铁进行故障诊断显得日益重要。在故障诊断中，故障数据分类是其关键技术。分类方法广泛应用于预测领域，而大多数分类方法都要求数据的分布较为均匀。若数据的分布严重不平衡时，少数类数据很有可能被当作噪声处理。现实生活中的数据往往呈现不平衡分布的特点，即在数据集中，不同类别的样本数量相差很大。数量较多的样本为多类样本，数量较少的样本称为少类样本。在大多数情况下，对少数类样本的错分往往会带来更大的损失，因此对少类样本的研究更具有价值意义。目前，国内外学者主要从三个方面对不平衡数据集分类进行研究，即数据层面、算法层面以及综合层面。数据层面的方法是指通过重采样技术使数据集达到平衡，根据采样对象的不同可以分为过采样、欠采样以及混合采样。算法层面的方法使模型在训练过程中更加注重于少类样本的识别，主要方法...

【技术保护点】
1.一种基于不平衡数据集的地铁故障数据分类方法，其特征在于，该方法包括以下步骤：/n步骤1、从地铁运行数据中获取实验所需的不平衡数据集D；/n步骤2、将数据集D划分为训练数据集D

【技术特征摘要】
1.一种基于不平衡数据集的地铁故障数据分类方法，其特征在于，该方法包括以下步骤：
步骤1、从地铁运行数据中获取实验所需的不平衡数据集D；
步骤2、将数据集D划分为训练数据集DTrain和测试数据集DTest；
步骤3、将DTrain中的数据样本划分为正类样本集Nmin和负类样本集Nmaj，其中Nmin为少数类样本、Nmaj为多数类样本，并计算待采样样本的数量：T＝Nmaj-Nmin；
步骤4、使用k-Means聚类算法对正类样本集Nmin进行聚类，得到k个簇Ci,i＝1,2,...,k；
步骤5、针对每个簇，使用具有近邻样本规则约束的SMOTE算法进行采样，直至采样完成；
步骤6、将步骤5合成的新的正类样本和原始数据集D合并构成一个平衡数据集；
步骤7、选择SVM分类器作为AdaBoost算法的基分类器，构建集成分类器；
步骤8、使用平衡数据集对集成分类器模型进行训练；
步骤9、使用测试数据集DTest对步骤8训练好的模型进行性能评估，并完成地铁故障数据的分类。

2.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法，其特征在于，步骤2所述将数据集D划分为训练数据集DTrain和测试数据集DTest，具体步骤如下：
2.1)将不平衡数据集随机分为样本数一致的5份；
2.2)从5份样本中任意选择1份作为测试数据集DTest，其他4份样本作为训练数据集DTrain。

3.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法，其特征在于，步骤4所述使用k-Means聚类算法对正类样本集Nmin进行聚类，具体步骤如下：
4.1)输入数据为正类样本集Nmin和待聚类簇的个数k；
4.2)随机产生k个初始簇心：c1,c2,...,ck；
4.3)对于正类样本集Nmin中的每个数据样本，分别计算样本距离步骤4.2)中k个簇心的距离，并将该样本划分到距离最近的簇心所属的簇中；
4.4)将所有数据划分到相应的簇中后，计算各个簇中数据样本的均值，并以此均值作为新的簇心，完成对c1,c2,...,ck的更新；
4.5)重复步骤4.3)～步骤4.4)直至簇心不再发生变化或者达到指定的迭代次数，聚类完毕。

4.根据权利要求1所述的基于不平衡数据集的地铁故障数据分类方法，其特征在于，步骤5所述使用具有近邻样本规则约束的SMOTE算法进行采样，具体步骤如下：
5.1)使用SMOTE算法对K-Means聚类合成的k个簇进行过采样，合成新的正类样本；
5.2)判断合成的新的正类样本是否符合近邻样本规则，若符合，将合成样本加入训练数据集；否则将该合成样本删除，返回步骤5.1)重新采样；
5.3)判断合成的新的正类样本数量是否达到待采样样本数量T，若是则采样过程完成，否则返回步骤5.1)继续采样。

5.根据权利要求4所述的基于不平衡...

【专利技术属性】
技术研发人员：张永，左婷婷，谢志鸿，方立超，单梁，徐志良，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人