当前位置: 首页 > 专利查询>中南大学专利>正文

基于权重聚类和欠抽样的不平衡数据分类方法技术

技术编号:15502305 阅读:311 留言:0更新日期:2017-06-03 23:15
不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一。因为少数类样本数量远远少于多数类,导致少数类在传统算法的分类学习过程中存在正确率低、泛化性能不好等缺陷。算法集成已经成处理该问题的一个重要方法,其中基于随机欠抽样和基于聚类的两种集成算法能有效提高分类的性能。但是,前者容易造成信息丢失,后者计算复杂不易推广。本文提出一种基于权重聚类,融合欠抽样的改进的集成分类算法,具体为基于权重聚类和欠抽样的不平衡数据分类方法。算法根据样本权重划分簇,依据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集,并利用Adaboost算法框架对分类器进行集成,提高了分类效果。实验结果表明,该算法具有准确,简单,稳定性高的特点。

Classification method of imbalanced data based on weighted clustering and undersampling

The classification of imbalanced data sets has become one of the most challenging problems in data mining. Because the number of minority class samples is far less than that of most classes, it leads to the shortcomings of low accuracy and poor generalization performance in the classification learning process of traditional algorithms. Algorithm integration has become an important method to deal with this problem. Among them, two algorithms based on random undersampling and clustering can effectively improve the performance of the algorithm. But the former is easy to cause the loss of information, and the latter is complicated and difficult to popularize. In this paper, an improved ensemble classification algorithm based on weighted clustering and undersampling is proposed, which is a classification method of imbalanced data based on weighted clustering and undersampling. According to the sample weight clustering algorithm, based on the weight of samples taken from each cluster in a certain proportion of the majority class and composition balance data set all the minority class, and a classifier is integrated by using the framework of Adaboost algorithm, improves the classification effect. Experimental results show that the algorithm is accurate, simple and stable.

【技术实现步骤摘要】
基于权重聚类和欠抽样的不平衡数据分类方法
本专利技术属于计算机
,具体涉及到一种基于Adaboost算法的权重聚类和欠抽样的不平衡数据集分类方法。
技术介绍
随着互联网技术的发展,人们获取的信息类型和数量都在快速地增加。大量的数据噪声和更加复杂的数据发布类型,会给我们的数据分析带来新的挑战。其中,不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一,它广泛存在于医疗诊断,信用评估等领域。在不平衡数据中,多数类的样本数量远远大于少数类的数量,如果使用普通的机器学习方法和评价标准,很有可能会导致少数类被忽略,甚至直接被当做噪声处理掉。因此,普通的机器学习算法对不平衡数据集进行学习分类时往往难以取得较好的效果。针对不平衡数据分类问题,研究者进行了大量研究,提出了许多解决方案。其中,基于数据层的方法前期对数据样本进行预处理,达到尽量平衡化数据样本的效果。如SMOTE方法,采用人工合成新样本的方式以平衡样本分布。然而,SMOTE在合成样本的过程中具有一定的盲目性,它不能对合成样本数量进行精确控制,同时也没有充分考虑到多数类近邻样本,往往导致严重的样本重叠。在这种情况下,SMOTEBoost算法将SMOTE方法数据层上的改进与集成学习相结合,在Adaboost算法每次迭代中引入合成样本,使得分类器对类别平衡关注。而RUSBoost算法则将欠抽样方法与Adaboost算法结合,在不平衡数据集中的多数类采用欠抽样的方式提取一部分样本,并与少数类样本组成样本平衡分布的训练集,从而在不平衡数据集上取得较好的泛化能力。然而RUSBoost算法在每一轮的Adaboost迭代的欠采样中,是从多数类样本随机地进行抽取,因此这种方法会造成多数类样本信息的丢失。即使通过Boosting的方法对这种丢失的信息进行一定程度上的弥补,但这弥补的程度是随机而不可定的。在此背景下,提出基于权重聚类和欠抽样的不平衡数据分类算法。算法吸收Adaboost算法修改权重的方法,在训练的进行过程中,依据权重将多数类样本集合分为有序且相关性较小的子集,再从子集中进行抽样和少数类组成训练集合用于分类器算法训练。通过这样的方式,在不过分提高计算开销的情况下,优化了随机欠采样,提高了分类准确率。
技术实现思路
本专利技术提出基一种于权重聚类和欠抽样的不平衡数据分类算法。由于传统聚类算法处理在算法完成后便将子集固定了下来,它对多数类数据集有序程度的规划很可能不是最优的,不能满足集成算法的动态要求。而且,聚类算法往往要对数据集中的所有样本进行迭代的距离计算,这会带来非常大的计算开销。其次,传统的欠抽样方法没有考虑不平衡数据不同分布情况对抽样效果的影响。因此本专利技术的方法在聚类方式和前抽样方式上对传统的方法进行改进,在Adaboost算法的迭代过程中对簇根据样本权重方差对簇进行分割,达到自动聚类的效果,再从子集中依据样本权重进行抽样和少数类组成训练集合用于分类器算法训练。通过这样的方式,在不过分提高计算开销的情况下,优化了随机欠采样,提高了分类准确率。为了达到以上目的,本专利技术在Adaboost算法模型的基础上,依据样本权重方差,在算法的每轮迭代过程中对簇进行分裂,从而将多数类样本划分为几个特定的簇,再从每个簇中抽取合适地样本组成平衡分布的训练集。算法具体实现步骤如下:步骤1:建立Adaboost算法模型Adaboost算法是一种典型的集成学习方法,可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值,算法迭代若干轮得到若干弱分类器;对于训练错误的样本,算法增加其权值,也就是让后续弱分类器更关注这类较难分类正确的样本。对于训练正确的样本,算法减小其权值,以降低下一轮被弱分类器选中的机会;最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下:步骤1.1:给定训练集S={(x1,y1),(x2,y2),…,(xn,yn)}和预定的迭代次数T,wt(i)表示第t轮迭代中样本xi的权值,初始t=1。步骤1.2:初始化样本权重:wt(i)=1/n,i=1,2,…,n步骤1.3:使用弱分类算法在带权样本上训练得到弱分类器ht,并更新训练样本权重并对样本权重进行归一化,公式如下:其中εt为当前样本分布上的加权错误率,计算公式如下:若t<T,令t=t+1并重复步骤c;步骤1.4:输出强分类器:步骤2:基于权重方差的子集分割方法在Adaboost算法中,当h(xi)表示一个弱分类器,w表示样本权重,y表示样本类别时,其方式如下:通过在每轮迭代中对权重进行修正后,较难分类正确的样本往往有比较高的样本权重,而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar,当有集合C,C中样本数量为NC,集合中样本权重为w时,权重方差公式如下:利用权重方差,可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重,当一个集合中的样本权重近似时,集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2,定义子集方差和:其中size表示集合中样本的数量,当两个子集C1、C2的样本权重比原集合C有序时,则其子集方差和较小。当集合C中样本数量为NC时,可能的子集分割情况的数量为NC-1,选取子集方差和最小的分割最为子集的分割,当输入一个带分裂簇C时,NC为C中样本的个数,wk为C中样本的权重,k=1,2…NC。在计算C中权重方差后,对C中的样本依据权重大小进行排序,对集合中的样本的进行从左到右的遍历,每次计算左右两个集合样本权重的最小方差和。wsvarmin=min0<j<J{wsvar(P1,P2)}计算所有可能分割的子集方差和后,选取其中子集方差和最小的情况,将原簇分割为两个子簇。步骤3:融合权重聚类和Adaboost集成学习算法模型,已知有输入训练集S={xi,yi},i=1,2…N;其中少数类集合为S+,多数类集合为S-;S+,S-∈S;Cj是S-中的一个簇,初始C1=S-;J为簇的数量;WeakLearn表示弱学习算法,则融合权重聚类和Adaboost集成学习算法模型具体步骤如下:步骤3.1:已知有输入训练集S={xi,yi},i=1,2…N;其中少数类集合为S+,多数类集合为S-;S+,S-∈S;Cj是S-中的一个簇,初始C1=S-;J为簇的数量,首先初始化所有样本的样本权重,公式如下:步骤3.2:使样本集合中的多数类集合为初始第一个簇,即C1=S-步骤3.3:从各个簇中抽取一定数量的样本构成有代表性的训练数据集,确定每个簇的样本抽取数量。当wk是第j个簇中样本的权重,N为少数类样本的数量,那么第j的簇Cj的抽样数量SNCj为:之后对每个簇采用TOP-K的方式,从没个簇Cj中随机抽取SNCj个样本,并与所有的少数类样本组成临时训练集S′,训练集中的样本权重为w′。步骤3.4:使用弱学习算法,根据S′以及w′训练一个分类器h(t)←I(S′),并计算分类误差,分类误差计算公式如下:由分类误差计算β=εt/(1-εt),并更新所有的样本权重,公式如下:步骤3.5:对循环次数t,计算t%step,当t%step==0andNS<MN时,对所有簇进行步骤2所示的分裂操作。步骤3.6:若t<T,令t=t+1,并重复步骤g,否则输出本文档来自技高网
...
基于权重聚类和欠抽样的不平衡数据分类方法

【技术保护点】
一种基于权重聚类和欠抽样的不平衡数据分类方法,其特征在于包括以下步骤:步骤1:建立Adaboost集成算法模型Adaboost算法是一种典型的集成学习方法,可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值,算法迭代若干轮得到若干弱分类器;对于训练错误的样本,算法增加其权值,也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本,算法减小其权值,以降低下一轮被弱分类器选中的机会;最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下:步骤1.1:给定训练集S={(x

【技术特征摘要】
1.一种基于权重聚类和欠抽样的不平衡数据分类方法,其特征在于包括以下步骤:步骤1:建立Adaboost集成算法模型Adaboost算法是一种典型的集成学习方法,可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值,算法迭代若干轮得到若干弱分类器;对于训练错误的样本,算法增加其权值,也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本,算法减小其权值,以降低下一轮被弱分类器选中的机会;最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下:步骤1.1:给定训练集S={(x1,y1),(x2,y2),…,(xn,yn)}和预定的迭代次数T,wt(i)表示第t轮迭代中样本xi的权值,初始t=1。步骤1.2:初始化样本权重:wt(i)=1/n,i=1,2,…,n步骤1.3:使用弱分类算法在带权样本上训练得到弱分类器ht,并更新训练样本权重并对样本权重进行归一化,公式如下:其中εt为当前样本分布上的加权错误率,计算公式如下:若t<T,令t=t+1并重复步骤c,否则,输出集成分类器H(x):步骤2:建立基于权重方差的子集分割方法在Adaboost算法中,当h(xi)表示一个弱分类器,w表示样本权重,y表示样本类别时,其方式如下:通过在每轮迭代中对权重进行修正后,较难分类正确的样本往往有比较高的样本权重,而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar,当有集合C,C中样本数量为NC,集合中样本权重为w时,权重方差公式如下利用权重方差,可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重,当一个集合中的样本权重近似时,集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2,定义子集方差和:

【专利技术属性】
技术研发人员:邓晓衡钟维坚任炬
申请(专利权)人:中南大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1