一种不平衡数据集下基于多数类转化为少数类的分类方法技术

技术编号：29156702 阅读：15 留言：0更新日期：2021-07-06 22:56

本发明专利技术公开了一种不平衡数据集下基于多数类转化为少数类的分类方法，包括如下步骤：对整体训练数据进行预处理；对每个少数类样在多数类中挑选出一定数量的样本作为伙伴，确定这个数量的取值范围；从多数类中挑选出合适的样本，形成新的样本集合；对集合中样本的标签进行更改；采用新的损失函数对前向加法模型对弱分类器进行提升训练；训练过程中，将最终分类器分布求解，每一步都对目标函数求解最优基分类器和改基分类器的权重；利用分类器进行相关预训练，确定多数类转化为少数类的最终数量。本发明专利技术不仅可以应用在图像分类，图像识别，也可以应用在自然语言处理等其他需要分类的场景。

全部详细技术资料下载

【技术实现步骤摘要】
一种不平衡数据集下基于多数类转化为少数类的分类方法
本专利技术涉及一种分类方法，更具体的说，涉及一种不平衡数据集下基于多数类转化为少数类的分类方法。
技术介绍
在图片分类或者识别中，很多算法都有一个基本假设，那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时，例如医疗、诈骗，大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀，都会存在“长尾现象”，这就是不平衡分类问题。通常而言,一个数据集称为不平衡数据集需要具备两个条件:类别数量的不平衡和错分代价的不平衡。以二分类问题为例，假设负类的样本数量远大于正类的样本数量，我们将负类称作为大类，正类称作小类。不平衡数据集的处理方法主要分为两个方面：一是从数据的角度出发，主要方法为采样，分为欠采样和过采样以及对应的一些改进方法；这些方法都是用来改变数据的分布，使得数据更加平衡。从算法的角度出发，主要是基于代价敏感学习算法(Cost-SensitiveLearning)，代表的算法有adacost；另外可以将不平衡数据集的问题考虑为一分类(OneClassLearning)或者异常检测(NoveltyDetection)问题，代表的算法有One-classSVM。在《Neighbourhood-basedundersamplingapproachforhandlingimbalancedandoverlappeddata》文中明确提出，数据层面的改进方法虽然思路简单，但是增加了计算开销；算法层面的改进方法虽然更加快捷，但缺少灵活性，难以在不同的数据...

【技术保护点】
1.一种不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，包括以下步骤：/n(1)对训练数据进行预处理，提炼出用于训练的样本特征；/n(2)对每个少数类样在多数类中挑选出样本作为伙伴，通过不平衡率确定挑选的数量的取值范围；/n(3)根据样本特征，通过目标函数从多数类中挑选出样本，形成新的样本集合；/n(4)对新的样本集合中样本的标签进行更改，将选中的多数类中的样本，改变标签为少数类，变更后的数据称为假少数类；/n(5)采用损失函数，并利用前向加法模型对弱分类器进行训练；训练过程中，将最终分类器分别求解，每一步都对目标函数求解最优基分类器和该基分类器的权重；/n(6)利用分类器进行预训练，确定多数类转化为少数类的最终数量；/n(7)根据最终数量，确定损失函数中的假少数类的权重数类，利用确定好参数的模型进行数据分类。/n

【技术特征摘要】
1.一种不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，包括以下步骤：
(1)对训练数据进行预处理，提炼出用于训练的样本特征；
(2)对每个少数类样在多数类中挑选出样本作为伙伴，通过不平衡率确定挑选的数量的取值范围；
(3)根据样本特征，通过目标函数从多数类中挑选出样本，形成新的样本集合；
(4)对新的样本集合中样本的标签进行更改，将选中的多数类中的样本，改变标签为少数类，变更后的数据称为假少数类；
(5)采用损失函数，并利用前向加法模型对弱分类器进行训练；训练过程中，将最终分类器分别求解，每一步都对目标函数求解最优基分类器和该基分类器的权重；
(6)利用分类器进行预训练，确定多数类转化为少数类的最终数量；
(7)根据最终数量，确定损失函数中的假少数类的权重数类，利用确定好参数的模型进行数据分类。

2.如权利1所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，所述预处理包括但不限于去重、降噪；数据的信息以矩阵或者向量的形式给出；若是向量的形式，则将数个向量合并为矩阵，进行主成分分析，选取合适的特征分量组成新的特征向量；若是矩阵形式，则求出特征向量后，多个样本的特征向量合并，进行主成分分析，选取合适的分量形成新的样本数据。

3.如权利要求2所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，步骤(2)中，对于少数类样本Dp和多数类Dn，需要从Dn中挑选样本的数量为R×|Dp|，其中|Dp|表示少数类集合的样本数量，R∈[0,Rmax]，Rmax如下式所示：

其中，IR是不平衡率，即多数类数量与少数类样本数量的比值，表示向上取整，最终形成伙伴集合Dn2p，也就是假少数类样本的集合，Rmax是R的取值上限。

4.如权利要求3所述的不平衡数据集下基于多数类转化为少数类的分类方法，其特征在于，步骤(3)挑选的目标函数如下：

其中，f(Dn2p)是关于Dn2p的函数；si是少数类集合Dp中的样本，sj是伙伴集合Dn2p中的样本；sj是si的伙伴，每个si对应不...

【专利技术属性】
技术研发人员：何克晶，王高山，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人