处理数据类别不均衡的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:28038442 阅读:30 留言:0更新日期:2021-04-09 23:21
本申请提供了一种处理数据类别不均衡的方法、装置、电子设备及存储介质。涉及云技术的大数据处理领域。本申请基于少数类样本X

【技术实现步骤摘要】
处理数据类别不均衡的方法、装置、电子设备及存储介质
本申请实施例涉及云
,尤其涉及云技术的大数据处理领域,并且更具体地,涉及处理数据类别不均衡的方法、装置、电子设备及存储介质。
技术介绍
数据类别不均衡问题是常见的影响分类模型性能的问题。目前,应用广泛的解决数据不均衡问题的方法为合成少数类过采样技术(SyntheticMinorityOversamplingTechnique,SMOTE)。不同于一般的过采样技术,SMOTE新增加的少数类样本不是通过重复采样得到,而是在两个少数类样之间通过插值的方式合成一个新样本,即在少数类分布边界内增加新的样本,并将新样本添加到少数类别中,从而达到类均衡的效果。新插值产生的样本一定程度服从原始数据分布,并且产生更多的少数类信息,提高了模型的泛化能力。但是,SMOTE是在两个同类别的样本之间合成新样本,插值后少数类样本点密度在小范围内急剧加大,且扩充样本集合时,没有改变少数类样本的分布特征,没有考虑多数类的近邻样本信息,对分类边界的影响较小,一方面容易导致样本重叠的问题;另一方面导致一些分本文档来自技高网...

【技术保护点】
1.一种处理数据类别不均衡的方法,其特征在于,包括:/n基于训练集中的第i个少数类样本X

【技术特征摘要】
1.一种处理数据类别不均衡的方法,其特征在于,包括:
基于训练集中的第i个少数类样本Xi与所述Xi的K个最近邻样本中的每一个近邻样本之间的互信息,在所述K个最近邻样本中确定M个最近邻样本;其中,0<i≤T;所述T表征所述训练集中少数类样本的数量;
基于所述Xi与所述M个最近邻样本中的第j个最近邻样本Xij(near)之间的互信息,确定所述Xij(near)的互信息权重,0<j≤M;
基于所述Xij(near)的类型和所述Xij(near)的互信息权重,确定所述Xij(near)的权重Wij(near);
基于所述Wij(near)和类别不均衡倍率N,确定所述Xi与所述Xij(near)之间待插入的少数类样本的数量Nj;所述类别不均衡倍率N为所述训练集中多数类样本的数量和所述T的比值;
在所述Xi与所述Xij(near)之间插入所述Nj个新样本。


2.根据权利要求1所述的方法,其特征在于,所述基于训练集中的第i个少数类样本Xi与所述Xi的K个最近邻样本中的每一个近邻样本之间的互信息,在所述K个最近邻样本中确定M个最近邻样本,包括:
利用基于所述训练集建立的K-维KD树模型,确定所述K个最近邻样本;
将所述K个最近邻样本中的与所述Xi的互信息大于或等于第一阈值的最近邻样本,确定为所述M个最近邻样本。


3.根据权利要求1所述的方法,其特征在于,所述基于所述Xi与所述M个最近邻样本中的第j个最近邻样本Xij(near)之间的互信息,确定所述Xij(near)的互信息权重,包括:
将所述Xi与所述Xij(near)之间的互信息,确定为所述Xij(near)的互信息权重。


4.根据权利要求1所述的方法,其特征在于,所述基于所述Xij(near)的类型和所述Xij(near)的互信息权重,确定所述Xij(near)的权重Wij(near),包括:
若所述Xij(near)的类型为多数类样本,则将所述Xij(near)的互信息权重确定为所述Wij(near);
若所述Xij(near)的类型为少数类样本,则将大于或等于所述Xij(near)的互信息权重的第一数值确定为所述Wij(near)。


5.根据权利要求4所述的方法,其特征在于,所述第一数值为所述Xij(near)的互信息权重与第二数值的和,所述第二数值大于或等于0。


6.根据权利要求5所述的方法,其特征在于,所述第二数值的取值用于表征在所述Xi与所述Xij(near)之间插入的新样本靠近所述T个少数类样本的边界的程度。


7.根据权利要求1所述的方法,其特征在于,所述基于所述Wij(near)和类别不均衡倍率N,确定所述Xi与所述Xij(near)之间待插入的少数类样本的数量Nj,包括:
确定所述Wij(near)与所述M...

【专利技术属性】
技术研发人员:刘志煌
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1