一种不平衡数据集下基于多数类转化为少数类的分类方法技术

技术编号:29156702 阅读:15 留言:0更新日期:2021-07-06 22:56
本发明专利技术公开了一种不平衡数据集下基于多数类转化为少数类的分类方法,包括如下步骤:对整体训练数据进行预处理;对每个少数类样在多数类中挑选出一定数量的样本作为伙伴,确定这个数量的取值范围;从多数类中挑选出合适的样本,形成新的样本集合;对集合中样本的标签进行更改;采用新的损失函数对前向加法模型对弱分类器进行提升训练;训练过程中,将最终分类器分布求解,每一步都对目标函数求解最优基分类器和改基分类器的权重;利用分类器进行相关预训练,确定多数类转化为少数类的最终数量。本发明专利技术不仅可以应用在图像分类,图像识别,也可以应用在自然语言处理等其他需要分类的场景。

【技术实现步骤摘要】
一种不平衡数据集下基于多数类转化为少数类的分类方法
本专利技术涉及一种分类方法,更具体的说,涉及一种不平衡数据集下基于多数类转化为少数类的分类方法。
技术介绍
在图片分类或者识别中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,例如医疗、诈骗,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不均匀,都会存在“长尾现象”,这就是不平衡分类问题。通常而言,一个数据集称为不平衡数据集需要具备两个条件:类别数量的不平衡和错分代价的不平衡。以二分类问题为例,假设负类的样本数量远大于正类的样本数量,我们将负类称作为大类,正类称作小类。不平衡数据集的处理方法主要分为两个方面:一是从数据的角度出发,主要方法为采样,分为欠采样和过采样以及对应的一些改进方法;这些方法都是用来改变数据的分布,使得数据更加平衡。从算法的角度出发,主要是基于代价敏感学习算法(Cost-SensitiveLearning),代表的算法有adacost;另外可以将不平衡数据集的问题考虑为一分类(OneClassLearning)或者异常检测(NoveltyDetection)问题,代表的算法有One-classSVM。在《Neighbourhood-basedundersamplingapproachforhandlingimbalancedandoverlappeddata》文中明确提出,数据层面的改进方法虽然思路简单,但是增加了计算开销;算法层面的改进方法虽然更加快捷,但缺少灵活性,难以在不同的数据集之间迁移。鉴于以上这些方法的局限性,因此,提出一种新的方法,可以更加高效地在训练数据不充分不平衡的情况下进行分类,本方法。
技术实现思路
本专利技术的目的旨在解决分类问题中的长尾问题,特别是二分类中的不平衡分类问题,本方法不仅可以应用在图像分类,图像识别,也可以应用在自然语言处理等其他需要分类的场景。本专利技术至少通过如下技术方案之一实现。一种不平衡数据集下基于多数类转化为少数类的分类方法,包括以下步骤:(1)对训练数据进行预处理,提炼出用于训练的样本特征;(2)对每个少数类样在多数类中挑选出样本作为伙伴,通过不平衡率确定挑选的数量的取值范围;(3)根据样本特征,通过目标函数从多数类中挑选出样本,形成新的样本集合;(4)对新的样本集合中样本的标签进行更改,将选中的多数类中的样本,改变标签为少数类,变更后的数据称为假少数类;(5)采用损失函数,并利用前向加法模型对弱分类器进行训练;训练过程中,将最终分类器分别求解,每一步都对目标函数求解最优基分类器和该基分类器的权重;(6)利用分类器进行预训练,确定多数类转化为少数类的最终数量;(7)根据最终数量,确定损失函数中的假少数类的权重数类,利用确定好参数的模型进行数据分类。优选的,所述预处理包括但不限于去重、降噪;数据的信息以矩阵或者向量的形式给出;若是向量的形式,则将数个向量合并为矩阵,进行主成分分析,选取合适的特征分量组成新的特征向量;若是矩阵形式,则求出特征向量后,多个样本的特征向量合并,进行主成分分析,选取合适的分量形成新的样本数据。优选的,步骤(2)中,对于少数类样本Dp和多数类Dn,需要从Dn中挑选样本的数量为R×|Dp|,其中|Dp|表示少数类集合的样本数量,R∈[0,Rmax],Rmax如下式所示:其中,IR是不平衡率,即多数类数量与少数类样本数量的比值,表示向上取整,最终形成伙伴集合Dn2p,也就是假少数类样本的集合,Rmax是R的取值上限。优选的,步骤(3)挑选的目标函数如下:其中,f(Dn2p)是关于Dn2p的函数;si是少数类集合Dp中的样本,sj是伙伴集合Dn2p中的样本;sj是si的伙伴,每个si对应不止一个sj,distacne(·)是距离函数。优选的,所述距离函数distacne(·)包括但不限于欧几里得距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离函数。优选的,所述前向加法模型为:其中,M是迭代总步数,一般由经验决定,Gm(x)是每一步中采用的基分类器,αm是其权重。优选的,所述损失函数如下:其中,λ是假少数类样本的权重参数,y表示样本标签的集合,f(xi)是最终分类器,xi表示Dn2p中的样本,xj表示除去Dn2p外的样本,yi是样本的标签,L(y,f(x))是关于y和f(x)的损失函数。优选的,步骤(5)中,在每一步求解中,最优基分类器Gm由下式给出:其中,wmi=exp(-yifm-1(xi)),wmj=exp(-yjfm-1(xi)),G是待定解,其中最优的解就是Gm,i、j分别表示Dn2p中的样本和除去Dn2p外的样本,fm-1是第m-1次迭代中的分类器。优选的,步骤(5)中,在每一步的求解中,最优基分类器的权重αm由下式给出:lm=wmI(yi≠Gm(xi))其中,wm是每次迭代伙伴集合样本所占权重的和,lm是每次迭代过程中伙伴集合的加权误差,em是总体样本的加权误差。优选的,步骤(6),根据分类器对R从0递增到Rmax的表现,找出效果最好的分类器和最好的R值,作为最终的数量。与现有的技术相比,本专利技术的有益效果为:1、集合了数据层面和算法层面在处理不平衡分类问题上的优势,同时拥有良好可抑制性和针对不同数据的权重参数特异性;2、本方法不仅可以用在图像分类识别中,也可以用在其他需要进行分类的人工智能场景;3、本专利技术不仅可以应用在图像分类,图像识别,也可以应用在自然语言处理等其他需要分类的场景,根据本专利技术能够有效解决不平衡分类问题,能够对金融、医疗、工业生产等方面提供巨大帮助。附图说明图1为实施例的一种不平衡数据集下基于多数类转化为少数类的分类方法流程示意图;图2为实施例的模型框架图;图3为实施例采用多数类转少数类方法前的效果图;图4为实施例采用多数类转少数类方法后的效果图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不限定本专利技术。本部分将详细描述本专利技术的具体实施例,本专利技术之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本专利技术的每个技术特征和整体技术方案,但其不能理解为对本专利技术保护范围的限制。本专利技术的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属
技术人员可以结合技术方案的具体内容合理确定上述词语在本专利技术中的具体含义。如图1、图2所示,一种不平衡数据集下基于多数类转化为少数类的分类方法,包括以下步骤:(1)对整体训练数据进行预处理,根据已有的数据信息本文档来自技高网
...

【技术保护点】
1.一种不平衡数据集下基于多数类转化为少数类的分类方法,其特征在于,包括以下步骤:/n(1)对训练数据进行预处理,提炼出用于训练的样本特征;/n(2)对每个少数类样在多数类中挑选出样本作为伙伴,通过不平衡率确定挑选的数量的取值范围;/n(3)根据样本特征,通过目标函数从多数类中挑选出样本,形成新的样本集合;/n(4)对新的样本集合中样本的标签进行更改,将选中的多数类中的样本,改变标签为少数类,变更后的数据称为假少数类;/n(5)采用损失函数,并利用前向加法模型对弱分类器进行训练;训练过程中,将最终分类器分别求解,每一步都对目标函数求解最优基分类器和该基分类器的权重;/n(6)利用分类器进行预训练,确定多数类转化为少数类的最终数量;/n(7)根据最终数量,确定损失函数中的假少数类的权重数类,利用确定好参数的模型进行数据分类。/n

【技术特征摘要】
1.一种不平衡数据集下基于多数类转化为少数类的分类方法,其特征在于,包括以下步骤:
(1)对训练数据进行预处理,提炼出用于训练的样本特征;
(2)对每个少数类样在多数类中挑选出样本作为伙伴,通过不平衡率确定挑选的数量的取值范围;
(3)根据样本特征,通过目标函数从多数类中挑选出样本,形成新的样本集合;
(4)对新的样本集合中样本的标签进行更改,将选中的多数类中的样本,改变标签为少数类,变更后的数据称为假少数类;
(5)采用损失函数,并利用前向加法模型对弱分类器进行训练;训练过程中,将最终分类器分别求解,每一步都对目标函数求解最优基分类器和该基分类器的权重;
(6)利用分类器进行预训练,确定多数类转化为少数类的最终数量;
(7)根据最终数量,确定损失函数中的假少数类的权重数类,利用确定好参数的模型进行数据分类。


2.如权利1所述的不平衡数据集下基于多数类转化为少数类的分类方法,其特征在于,所述预处理包括但不限于去重、降噪;数据的信息以矩阵或者向量的形式给出;若是向量的形式,则将数个向量合并为矩阵,进行主成分分析,选取合适的特征分量组成新的特征向量;若是矩阵形式,则求出特征向量后,多个样本的特征向量合并,进行主成分分析,选取合适的分量形成新的样本数据。


3.如权利要求2所述的不平衡数据集下基于多数类转化为少数类的分类方法,其特征在于,步骤(2)中,对于少数类样本Dp和多数类Dn,需要从Dn中挑选样本的数量为R×|Dp|,其中|Dp|表示少数类集合的样本数量,R∈[0,Rmax],Rmax如下式所示:



其中,IR是不平衡率,即多数类数量与少数类样本数量的比值,表示向上取整,最终形成伙伴集合Dn2p,也就是假少数类样本的集合,Rmax是R的取值上限。


4.如权利要求3所述的不平衡数据集下基于多数类转化为少数类的分类方法,其特征在于,步骤(3)挑选的目标函数如下:



其中,f(Dn2p)是关于Dn2p的函数;si是少数类集合Dp中的样本,sj是伙伴集合Dn2p中的样本;sj是si的伙伴,每个si对应不...

【专利技术属性】
技术研发人员:何克晶王高山
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1