针对非均衡数据的特征选择和聚类抽样集成二分类方法技术

技术编号：19343926 阅读：18 留言：0更新日期：2018-11-07 14:33

本发明专利技术提供的针对非均衡数据的特征选择和聚类抽样集成二分类方法，步骤包括：将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除，得到训练集D；基于改进的RELIEF‑F方法实现特征选择，得到特征权重集合W＝{w(1),...,w(j),...,w(J)}；对训练集D中的数据进行聚类，将训练集D分成K个簇；构建均衡的训练数据集，得到K个均衡的子训练集D1,...,DK；对D1,...,DK分别训练K个基分类器，完成训练过程；在新数据到来后，分别通过K个训练好的基分类器得到识别结果，再通过投票法，用少数服从多数的原则，来确定测试样本的类别。该针对非均衡数据的特征选择和聚类抽样集成二分类方法可以有效地提升非均衡数据集的分类准确性。

Two classification methods for feature selection and cluster sampling in imbalanced data

The method of feature selection and clustering sampling ensemble two-classification for unbalanced data provided by the invention includes: deleting incomplete data, noise data and unavailable data from the collected data set to obtain training set D; realizing feature selection based on improved RELIEF_F method and obtaining feature weight set. Combining W={w(1),..., w(j),..., w(J)}; Clustering the data in training set D, dividing training set D into K clusters; Constructing balanced training data set, getting K balanced subsets D1,..., DK; Training K base classifiers for D1,..., DK respectively, completing the training process; After the arrival of new data, passing K trained bases respectively. The classifier obtains the recognition result, and then determines the category of the test sample by voting and using the principle of minority obeying majority. The method of feature selection and clustering sampling ensemble for unbalanced data sets can effectively improve the classification accuracy of unbalanced data sets.

全部详细技术资料下载

【技术实现步骤摘要】
针对非均衡数据的特征选择和聚类抽样集成二分类方法
本专利技术属于非均衡数据分类
，尤其是一种针对非均衡数据的特征选择和聚类抽样集成二分类方法。
技术介绍
分类问题作为机器学习领域重要的研究课题之一而受到广泛的关注，传统的分类方法都是用来处理均衡数据的分类问题，然而在实际生活中，数据往往是非均衡的，例如医学诊断、文本分类、网络入侵、故障检测等等。当传统方法用来处理非均衡数据时，数据的非均衡分布特性不符合传统方法的要求并且会影响方法的泛化能力，因此，对非均衡数据分类研究已成为数据挖掘领域的热点和难点问题。目前，对于非均衡数据分类的研究大致可分为两个层面：数据层面和方法层面。数据层面的方法主要是通过改变非均衡数据的分布，使之变成均衡分布，常用的方法包括少数类的过采样方法、多数类的欠采样以及过采样和欠采样的集合方法等等。方法层面的方法主要通过对传统方法的改进，使其能够适用于非均衡数据，常用的方法包括代价敏感学习方法、单类学习方法、集成方法以及特征选择方法等。现有的基于聚类抽样的集成方法中，通常先经过K-Means方法先对训练数据进行聚类，然后按照一定的规则从各个数据簇中抽取相同数量的多数类和少数类样本，共同组成均衡的子训练集用于训练弱分类器，最终构成一个强分类器。但是现有的集成方法并没有考虑数据的各个特征属性权重对聚类方法的影响以及样本选取对属性权重的影响，因而导致非均衡数据的分类效果不是很理想。
技术实现思路
本专利技术要解决的技术问题是现有的集成方法并没有考虑数据的各个特征属性权重对聚类方法的影响以及样本选取对属性权重的影响，导致非均衡数据的分类效果不是很理...

【技术保护点】
1.针对非均衡数据的特征选择和聚类抽样集成二分类方法，其特征在于，包括如下步骤：步骤1，将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除，得到训练集D；步骤2，基于改进的RELIEF‑F方法实现特征选择，得到特征权重集合W＝{w(1),...,w(j),...,w(J)}；步骤3，对训练集D中的数据进行聚类，从而将训练集D分成K个簇；步骤4，构建均衡的训练数据集，得到K个均衡的子训练集D1,...,DK；步骤5，对D1,...,DK分别训练K个基分类器，完成训练过程；步骤6，在新数据到来后，分别通过K个训练好的基分类器得到识别结果，再通过投票法，用少数服从多数的原则，来确定测试样本的类别。

【技术特征摘要】
1.针对非均衡数据的特征选择和聚类抽样集成二分类方法，其特征在于，包括如下步骤：步骤1，将所采集到的数据集中的不完整的数据、噪声数据以及不可用的数据删除，得到训练集D；步骤2，基于改进的RELIEF-F方法实现特征选择，得到特征权重集合W＝{w(1),...,w(j),...,w(J)}；步骤3，对训练集D中的数据进行聚类，从而将训练集D分成K个簇；步骤4，构建均衡的训练数据集，得到K个均衡的子训练集D1,...,DK；步骤5，对D1,...,DK分别训练K个基分类器，完成训练过程；步骤6，在新数据到来后，分别通过K个训练好的基分类器得到识别结果，再通过投票法，用少数服从多数的原则，来确定测试样本的类别。2.根据权利要求1所述的针对非均衡数据的特征选择和聚类抽样集成二分类方法，其特征在于，步骤2中，得到特征权重集合W＝{w(1),...,w(j),...,w(J)}的具体步骤为：步骤2.1，初始化特征权重，随机选择训练集D中的一个样本，分别选取该样本的V个最近邻同类样本和异类样本，按照下式计算特征权重：式中，w(j)表示第j个特征的权重，xi(j)表示样本第j维特征的数值，d(xi(j),NMi(j))表示两个样本关于j维特征的距离，M表示样本随机抽取的次数，k是预先给定的近邻数，class(xi(j))表示样本xi的类别，c表示类别，p(c)表示类别c的先验概率；步骤2.2，重复步骤2.1，遍历子训练集D中的所有样本，更新特征权重，从而得到特征权重集合W＝{w(1),...,w(j),...,w(J)}。3.根据权利要求1所述的针对非均衡数据的特...

【专利技术属性】
技术研发人员：杜庆波，阴法明，
申请(专利权)人：南京信息职业技术学院，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人