针对非均衡数据的特征选择和聚类抽样集成二分类方法技术

技术编号:19343926 阅读:18 留言:0更新日期:2018-11-07 14:33
本发明专利技术提供的针对非均衡数据的特征选择和聚类抽样集成二分类方法,步骤包括:将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;基于改进的RELIEF‑F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)};对训练集D中的数据进行聚类,将训练集D分成K个簇;构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK;对D1,...,DK分别训练K个基分类器,完成训练过程;在新数据到来后,分别通过K个训练好的基分类器得到识别结果,再通过投票法,用少数服从多数的原则,来确定测试样本的类别。该针对非均衡数据的特征选择和聚类抽样集成二分类方法可以有效地提升非均衡数据集的分类准确性。

Two classification methods for feature selection and cluster sampling in imbalanced data

The method of feature selection and clustering sampling ensemble two-classification for unbalanced data provided by the invention includes: deleting incomplete data, noise data and unavailable data from the collected data set to obtain training set D; realizing feature selection based on improved RELIEF_F method and obtaining feature weight set. Combining W={w(1),..., w(j),..., w(J)}; Clustering the data in training set D, dividing training set D into K clusters; Constructing balanced training data set, getting K balanced subsets D1,..., DK; Training K base classifiers for D1,..., DK respectively, completing the training process; After the arrival of new data, passing K trained bases respectively. The classifier obtains the recognition result, and then determines the category of the test sample by voting and using the principle of minority obeying majority. The method of feature selection and clustering sampling ensemble for unbalanced data sets can effectively improve the classification accuracy of unbalanced data sets.

【技术实现步骤摘要】
针对非均衡数据的特征选择和聚类抽样集成二分类方法
本专利技术属于非均衡数据分类
,尤其是一种针对非均衡数据的特征选择和聚类抽样集成二分类方法。
技术介绍
分类问题作为机器学习领域重要的研究课题之一而受到广泛的关注,传统的分类方法都是用来处理均衡数据的分类问题,然而在实际生活中,数据往往是非均衡的,例如医学诊断、文本分类、网络入侵、故障检测等等。当传统方法用来处理非均衡数据时,数据的非均衡分布特性不符合传统方法的要求并且会影响方法的泛化能力,因此,对非均衡数据分类研究已成为数据挖掘领域的热点和难点问题。目前,对于非均衡数据分类的研究大致可分为两个层面:数据层面和方法层面。数据层面的方法主要是通过改变非均衡数据的分布,使之变成均衡分布,常用的方法包括少数类的过采样方法、多数类的欠采样以及过采样和欠采样的集合方法等等。方法层面的方法主要通过对传统方法的改进,使其能够适用于非均衡数据,常用的方法包括代价敏感学习方法、单类学习方法、集成方法以及特征选择方法等。现有的基于聚类抽样的集成方法中,通常先经过K-Means方法先对训练数据进行聚类,然后按照一定的规则从各个数据簇中抽取相同数量的多数类和少数类样本,共同组成均衡的子训练集用于训练弱分类器,最终构成一个强分类器。但是现有的集成方法并没有考虑数据的各个特征属性权重对聚类方法的影响以及样本选取对属性权重的影响,因而导致非均衡数据的分类效果不是很理想。
技术实现思路
本专利技术要解决的技术问题是现有的集成方法并没有考虑数据的各个特征属性权重对聚类方法的影响以及样本选取对属性权重的影响,导致非均衡数据的分类效果不是很理想。为了解决上述技术问题,本专利技术提供了一种针对非均衡数据的特征选择和聚类抽样集成二分类方法,包括如下步骤:步骤1,将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;步骤2,基于改进的RELIEF-F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)};步骤3,对训练集D中的数据进行聚类,从而将训练集D分成K个簇;步骤4,构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK;步骤5,对D1,...,DK分别训练K个基分类器,完成训练过程;步骤6,在新数据到来后,分别通过K个训练好的基分类器得到识别结果,再通过投票法,用少数服从多数的原则,来确定测试样本的类别。进一步地,步骤2中,得到特征权重集合W={w(1),...,w(j),...,w(J)}的具体步骤为:步骤2.1,初始化特征权重,随机选择训练集D中的一个样本xi,分别选取该样本的V个最近邻同类样本和异类样本,按照下式计算特征权重:式中,w(j)表示第j个特征的权重,xi(j)表示样本i第j维特征的数值,d(xi(j),NMi(j))表示两个样本关于j维特征的距离,M表示样本随机抽取的次数,k是预先给定的近邻数,class(xi(j))表示样本xi的类别,c表示类别,p(c)表示类别c的先验概率;步骤2.2,重复步骤2.1,遍历子训练集D中的所有样本,更新特征权重,从而得到特征权重集合W={w(1),...,w(j),...,w(J)}。进一步地,步骤3中,将训练集D分成K个簇的具体步骤为:步骤3.1,将训练集D作为一个簇,使用二分K均值方法将该簇一分为二,然后根据下式计算误差平方和E:上式中,E是数据库中样本的平方误差的总和,cluk表示簇k,xi是数据样本,xi∈cluk表示xi在簇k中,ek是簇k的中心,dist(.)为基于欧式距离和特征权重的相似度,其定义为:其中,w(j)为步骤2得到的第j个特征的权重,ek(j)表示簇k中心的第j维特征的数值;步骤3.2,分别计算两个簇的总误差平方和E,对总误差平方和E较小的那个簇进行划分,以此类推,直到簇的个数达到K,从而将训练集D分成K个簇。进一步地,步骤4中,得到K个均衡的子训练集D1,...,DK的具体步骤为:步骤4.1,从训练数据集D中选取全部的少数类样本;步骤4.2,依次计算各个簇中多数类样本与少数类样本的比值,用Pk表示第k个簇中多数类与少数类样本数量的比值,对于每个簇,按照下式计算各个簇中抽取的多数类样本的数量,式中,Sk表示第k个簇中应该抽取的多数类样本的数量,S表示数据集D中的全部多数类样本数量;步骤4.3,从当前簇k中所抽出相应数量的多数类样本与全部的少数类样本构成均衡的训练数据集Dk;步骤4.4,重复步骤4.3对簇进行遍历,从而构成K个均衡的子训练集D1,...,DK。进一步地,步骤5中,基分类器为朴素贝叶斯、支持向量机或随机森林。本专利技术的有益效果在于:(1)本专利技术很好地解决了RELIEF-F方法偏向多数类样本的问题,不仅可以保证数据的多样性、均衡性以及完整性,还能更加充分体现少数类样本的特性。(2)本专利技术将数据的特征权重和聚类方法相结合,在计算样本相似度的时候考虑特征属性的权重,使得聚类的样本簇更加合理。(3)本专利技术提出的基于特征选择和聚类抽样的集成方法,通过基于聚类抽样的方法按照一定的比例从各个簇中抽取多数类样本来改进训练数据集的非均衡性,使得训练数据集基本保持均衡。附图说明图1为本专利技术的基于特征选择和聚类抽样的集成方法的流程图。图2为三种不同的基分类器在数据集上的AUC值对比。具体实施方式如图1所示,本专利技术公开的针对非均衡数据的特征选择和聚类抽样集成二分类方法,包括如下步骤:步骤1,将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;步骤2,基于改进的RELIEF-F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)},具体步骤为:步骤2.1,初始化特征权重,随机选择训练集D中的一个样本,分别选取该样本的V个最近邻同类样本和异类样本,按照下式计算特征权重:式中,w(j)表示第j个特征的权重,xi(j)表示样本第j维特征的数值,d(xi(j),NMi(j))表示两个样本关于j维特征的距离,M表示样本随机抽取的次数,k是预先给定的近邻数,class(xi(j))表示样本xi的类别,c表示类别,p(c)表示类别c的先验概率,这里取0.5;步骤2.2,重复步骤2.1,遍历子训练集D中的所有样本,更新特征权重,从而得到特征权重集合W={w(1),...,w(j),...,w(J)};步骤3,对训练集D中的数据进行聚类,从而将训练集D分成K个簇,具体步骤为:步骤3.1,将训练集D作为一个簇,使用二分K均值方法将该簇一分为二,然后根据下式计算误差平方和E:上式中,E是数据库中样本的平方误差的总和,cluk表示簇k,xi是数据样本,xi∈cluk表示xi在簇k中,ek是簇k的中心,dist(.)为基于欧式距离和特征权重的相似度,其定义为:其中,w(j)为步骤2得到的第j个特征的权重,ek(j)表示簇k中心的第j维特征的数值;步骤3.2,分别计算两个簇的总误差平方和E,对总误差平方和E较小的那个簇进行划分,以此类推,直到簇的个数达到K,从而将训练集D分成K个簇;步骤4,构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK,具体步骤为:步骤4.1,从训练数据集D中选取全部的少数类样本;步骤4.2本文档来自技高网...

【技术保护点】
1.针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,包括如下步骤:步骤1,将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;步骤2,基于改进的RELIEF‑F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)};步骤3,对训练集D中的数据进行聚类,从而将训练集D分成K个簇;步骤4,构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK;步骤5,对D1,...,DK分别训练K个基分类器,完成训练过程;步骤6,在新数据到来后,分别通过K个训练好的基分类器得到识别结果,再通过投票法,用少数服从多数的原则,来确定测试样本的类别。

【技术特征摘要】
1.针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,包括如下步骤:步骤1,将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除,得到训练集D;步骤2,基于改进的RELIEF-F方法实现特征选择,得到特征权重集合W={w(1),...,w(j),...,w(J)};步骤3,对训练集D中的数据进行聚类,从而将训练集D分成K个簇;步骤4,构建均衡的训练数据集,得到K个均衡的子训练集D1,...,DK;步骤5,对D1,...,DK分别训练K个基分类器,完成训练过程;步骤6,在新数据到来后,分别通过K个训练好的基分类器得到识别结果,再通过投票法,用少数服从多数的原则,来确定测试样本的类别。2.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法,其特征在于,步骤2中,得到特征权重集合W={w(1),...,w(j),...,w(J)}的具体步骤为:步骤2.1,初始化特征权重,随机选择训练集D中的一个样本,分别选取该样本的V个最近邻同类样本和异类样本,按照下式计算特征权重:式中,w(j)表示第j个特征的权重,xi(j)表示样本第j维特征的数值,d(xi(j),NMi(j))表示两个样本关于j维特征的距离,M表示样本随机抽取的次数,k是预先给定的近邻数,class(xi(j))表示样本xi的类别,c表示类别,p(c)表示类别c的先验概率;步骤2.2,重复步骤2.1,遍历子训练集D中的所有样本,更新特征权重,从而得到特征权重集合W={w(1),...,w(j),...,w(J)}。3.根据权利要求1所述的针对非均衡数据的特...

【专利技术属性】
技术研发人员:杜庆波阴法明
申请(专利权)人:南京信息职业技术学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1