基于权重聚类和欠抽样的不平衡数据分类方法技术

技术编号：15502305 阅读：311 留言：0更新日期：2017-06-03 23:15

不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一。因为少数类样本数量远远少于多数类，导致少数类在传统算法的分类学习过程中存在正确率低、泛化性能不好等缺陷。算法集成已经成处理该问题的一个重要方法，其中基于随机欠抽样和基于聚类的两种集成算法能有效提高分类的性能。但是，前者容易造成信息丢失，后者计算复杂不易推广。本文提出一种基于权重聚类，融合欠抽样的改进的集成分类算法，具体为基于权重聚类和欠抽样的不平衡数据分类方法。算法根据样本权重划分簇，依据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集，并利用Adaboost算法框架对分类器进行集成，提高了分类效果。实验结果表明，该算法具有准确，简单，稳定性高的特点。

Classification method of imbalanced data based on weighted clustering and undersampling

The classification of imbalanced data sets has become one of the most challenging problems in data mining. Because the number of minority class samples is far less than that of most classes, it leads to the shortcomings of low accuracy and poor generalization performance in the classification learning process of traditional algorithms. Algorithm integration has become an important method to deal with this problem. Among them, two algorithms based on random undersampling and clustering can effectively improve the performance of the algorithm. But the former is easy to cause the loss of information, and the latter is complicated and difficult to popularize. In this paper, an improved ensemble classification algorithm based on weighted clustering and undersampling is proposed, which is a classification method of imbalanced data based on weighted clustering and undersampling. According to the sample weight clustering algorithm, based on the weight of samples taken from each cluster in a certain proportion of the majority class and composition balance data set all the minority class, and a classifier is integrated by using the framework of Adaboost algorithm, improves the classification effect. Experimental results show that the algorithm is accurate, simple and stable.

全部详细技术资料下载

【技术实现步骤摘要】
基于权重聚类和欠抽样的不平衡数据分类方法
本专利技术属于计算机
，具体涉及到一种基于Adaboost算法的权重聚类和欠抽样的不平衡数据集分类方法。
技术介绍
随着互联网技术的发展，人们获取的信息类型和数量都在快速地增加。大量的数据噪声和更加复杂的数据发布类型，会给我们的数据分析带来新的挑战。其中，不平衡数据集的分类已经成为数据挖掘中最具挑战性的问题之一，它广泛存在于医疗诊断，信用评估等领域。在不平衡数据中，多数类的样本数量远远大于少数类的数量，如果使用普通的机器学习方法和评价标准，很有可能会导致少数类被忽略，甚至直接被当做噪声处理掉。因此，普通的机器学习算法对不平衡数据集进行学习分类时往往难以取得较好的效果。针对不平衡数据分类问题，研究者进行了大量研究，提出了许多解决方案。其中，基于数据层的方法前期对数据样本进行预处理，达到尽量平衡化数据样本的效果。如SMOTE方法，采用人工合成新样本的方式以平衡样本分布。然而，SMOTE在合成样本的过程中具有一定的盲目性，它不能对合成样本数量进行精确控制，同时也没有充分考虑到多数类近邻样本，往往导致严重的样本重叠。在这种情况下，SMOTEBoost算法将SMOTE方法数据层上的改进与集成学习相结合，在Adaboost算法每次迭代中引入合成样本，使得分类器对类别平衡关注。而RUSBoost算法则将欠抽样方法与Adaboost算法结合，在不平衡数据集中的多数类采用欠抽样的方式提取一部分样本，并与少数类样本组成样本平衡分布的训练集，从而在不平衡数据集上取得较好的泛化能力。然而RUSBoost算法在每一轮的Adaboost...
基于权重聚类和欠抽样的不平衡数据分类方法

【技术保护点】
一种基于权重聚类和欠抽样的不平衡数据分类方法，其特征在于包括以下步骤：步骤1：建立Adaboost集成算法模型Adaboost算法是一种典型的集成学习方法，可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值，算法迭代若干轮得到若干弱分类器；对于训练错误的样本，算法增加其权值，也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本，算法减小其权值，以降低下一轮被弱分类器选中的机会；最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下：步骤1.1：给定训练集S＝{(x

【技术特征摘要】
1.一种基于权重聚类和欠抽样的不平衡数据分类方法，其特征在于包括以下步骤：步骤1：建立Adaboost集成算法模型Adaboost算法是一种典型的集成学习方法，可以有效地提高学习模型的泛化能力。它首先赋予每个训练样本以相同权值，算法迭代若干轮得到若干弱分类器；对于训练错误的样本，算法增加其权值，也就是让后续弱分类器更关注这类更难分类正确的样本。对于训练正确的样本，算法减小其权值，以降低下一轮被弱分类器选中的机会；最后通过对这些弱分类器加权求和集成最终的分类器.算法过程如下：步骤1.1：给定训练集S＝{(x1，y1)，(x2，y2)，…，(xn，yn)}和预定的迭代次数T，wt(i)表示第t轮迭代中样本xi的权值，初始t＝1。步骤1.2：初始化样本权重：wt(i)＝1/n，i＝1,2,…,n步骤1.3：使用弱分类算法在带权样本上训练得到弱分类器ht，并更新训练样本权重并对样本权重进行归一化，公式如下：其中εt为当前样本分布上的加权错误率，计算公式如下：若t<T，令t＝t+1并重复步骤c，否则，输出集成分类器H(x)：步骤2：建立基于权重方差的子集分割方法在Adaboost算法中，当h(xi)表示一个弱分类器，w表示样本权重，y表示样本类别时，其方式如下：通过在每轮迭代中对权重进行修正后，较难分类正确的样本往往有比较高的样本权重，而较容易分类正确的样本权重往往比较低。定义集合的权重方差WVar，当有集合C，C中样本数量为NC,集合中样本权重为w时，权重方差公式如下利用权重方差，可以将样本有序性进行评估。同类且性质接近的样本拥有近似的权重，当一个集合中的样本权重近似时，集合拥有较小的权重方差值。因此将C分割为两个子集C1、C2，定义子集方差和：

【专利技术属性】
技术研发人员：邓晓衡，钟维坚，任炬，
申请(专利权)人：中南大学，
类型：发明
国别省市：湖南,43

全部详细技术资料下载我是这个专利的主人