一种基于聚类的自适应加权过采样方法技术

技术编号:30018031 阅读:18 留言:0更新日期:2021-09-11 06:30
本发明专利技术涉及一种基于聚类的自适应加权过采样方法,本发明专利技术首先对少数类样本数据进行k

【技术实现步骤摘要】
一种基于聚类的自适应加权过采样方法


[0001]本专利技术涉及数据挖掘领域,尤其涉及一种基于聚类的自适应加权过采样方法。

技术介绍

[0002]不平衡数据广泛存在于实际应用问题中,当不同类别的样本数目不均衡,甚至相差甚远时,我们认为具有这样数据分布的数据集就是不平衡数据集。对于不平衡学习,急需解决的根本问题是由于数据分布的不均衡导致很多传统机器学习的分类算法性能大大减弱。
[0003]随着不平衡数据集处理的研究的深入发展,目前,针对不平衡数据问题研究的热点主要有两个方面:一是对算法层面的研究,二是对数据层面的研究。对于数据层面来说,主要分为过采样、欠采样和混合采样。相较于另外两种采样方法,过采样方法通过生成少数类样本的方式平衡数据集,同时也能够避免多数类中拥有重要信息的数据样本丢失。随着过采样的逐渐发展,很多方法比如SMOTE、Borderline

SMOTE、ADASYN等等流行开来,但是这些方法只是基于少数类样本信息进行采样,没有考虑到实际与多数类结合时的分类情况,导致在合成样本的时候精准性上有所下降。

技术实现思路

[0004]本专利技术的目的在于提供一种对少数类样本数据进行聚类,通过各个簇与多数类的分类情况,确定簇采样权重,从而提高生成少数类样本质量的一种过采样方法。
[0005]实现本专利技术目的的技术解决方案为:一种基于聚类的自适应加权过采样方法,其特征在于,包括以下步骤。
[0006]步骤1:对不平衡数据集作为输入,区分出少数类样本和多数类样本,计算需要生成的样本个数。
[0007]步骤2:利用k

means聚类算法将少数类数据划分为多个簇,并与多数类数据结合成多个数据集。
[0008]步骤3:对于每个数据集通过随机森林算法,并采用5折交叉验证的方式计算对应的得分值,并确定该簇的评分。
[0009]步骤4:通过各个簇的评分,计算采样权重,确定簇样本合成个数。
[0010]步骤5:针对每个簇根据样本个数,在在簇内进行样本之间随机线性插值。
[0011]根据所述的一种基于聚类的自适应加权过采样方法,其特征在于,所述步骤2中,利用k

means聚类算法将少数类数据划分为多个簇,并与多数类数据结合成多个数据集,具体步骤如下。
[0012]步骤2.1 从少数类样本中随机的找到k个数据点作为初始聚类簇心。
[0013]步骤2.2 分别计算每个数据点si到所选k个簇心之间的欧氏距离d(si,cj),找到与每个数据点距离值最小的簇心并分配到该簇中。
[0014]步骤2.3 分别计算各个类簇中的数据点的平均值,并将其设置为下一次迭代的聚
类中心。
[0015]步骤2.4 循环迭代步骤2.2~步骤2.3,直到满足最大迭代次数,或各个簇心不再发生较大变化。
[0016]步骤2.5 将步骤2.4得到的k个簇,分别与多数类样本结合成k个数据集。
[0017]根据所述的一种基于聚类的自适应加权过采样方法,其特征在于,所述步骤3中,对于每个数据集通过随机森林算法,并采用k折交叉验证的方式计算对应的得分值,并确定该簇的评分,具体步骤为。
[0018]步骤3.1 对于每一个步骤2中得到的数据集,根据5折交叉验证的方式,划分为k组数据集。
[0019]步骤3.2 每次选择其中1组作为测试集,4组作为训练集,使用训练集训练随机森林算法,根据训练得到的模型预测测试集结果,并根据结果得到其对应的AUC、F

measure、G

mean值,并计算对应的平均值。
[0020]步骤3.3 循环k次步骤3.2,得到k个值并计算平均值,作为该簇对应的得分值。
[0021]根据所述的一种基于聚类的自适应加权过采样方法,其特征在于,所述步骤4中,通过各个簇的评分,计算采样权重,确定簇样本合成个数,具体步骤为。
[0022]步骤4.1 对于各个簇均用1与该簇的评分值做差值作为其采样得分,并计算采样得分值的总和。
[0023]步骤4.2 根据簇对应的采样得分值与总和作比,作为该簇的采样权重值。
[0024]步骤4.3 原始数据多数类样本点与少数类样本点的差值乘上簇的采样权重值,即为簇的合成样本个数。
[0025]根据所述的一种基于聚类的自适应加权过采样方法,其特征在于,在所述步骤5中,针对每个簇根据样本个数,在簇内进行样本之间随机线性插值,具体过程为。
[0026]步骤5.1 随机选择簇内的两个样本点,在两者之间通过随机插值的方式合成新的样本点。
[0027]步骤5.2 重复步骤5.1,直至新的样本点个数等于簇的合成样本个数。
[0028]本专利技术与现有技术相比,在不平衡数据的过采样中可以通过对少数类样本数据进行聚类划分,从而能够精确的根据各个部分少数类样本数据与多数类样本的分类情况进行侧重采样,从而提高在分类时少数类样本能够拥有更高的识别率,更有利于不平衡数据问题的解决。
附图说明
[0029]图1为本专利技术的一种基于聚类的自适应加权过采样方法的流程图。
具体实施方式
[0030]下面结合附图和具体实施方式对本专利技术做进一步的说明。
[0031]结合图1,本专利技术一种基于聚类的自适应加权过采样方法,包括以下步骤:步骤1:对不平衡数据集作为输入,区分出少数类样本和多数类样本,计算需要生成的样本个数。
[0032]步骤2:利用kmeans聚类算法将少数类数据划分为多个簇,并与多数类数据结合成
多个数据集。
[0033]步骤2.1 从少数类样本中随机的找到k个数据点作为初始聚类簇心。
[0034]步骤2.2 分别计算每个数据点si到所选k个簇心之间的欧氏距离d(si,cj),找到与每个数据点距离值最小的簇心并分配到该簇中。
[0035]步骤2.3 分别计算各个类簇中的数据点的平均值,并将其设置为下一次迭代的聚类中心。
[0036]步骤2.4 循环迭代步骤2.2~步骤2.3,直到满足最大迭代次数,或各个簇心不再发生较大变化。
[0037]步骤2.5 将步骤2.4得到的k个簇,分别与多数类样本结合成k个数据集。
[0038]步骤3:对于每个数据集通过随机森林算法,并采用k折交叉验证的方式计算对应的得分值,并确定该簇的评分。
[0039]步骤3.1 对于每一个步骤2中得到的数据集,根据k折交叉验证的方式,划分为k组数据集。
[0040]步骤3.2 每次选择其中1组作为测试集,4组作为训练集,使用训练集训练随机森林算法,根据训练得到的模型预测测试集结果,并根据结果得到其对应的AUC、F

measure、G

mean值,并计算对应的平均值。
[0041]步骤3.3 循环k次步骤3.2,得到k个值并计算平均值,作为该簇对应的得分值。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的自适应加权过采样方法,其特征在于,包括以下步骤:步骤1:对不平衡数据集作为输入,区分出少数类样本和多数类样本,计算需要生成的样本个数;步骤2:利用k

means聚类算法将少数类数据划分为多个簇,并与多数类数据结合成多个数据集;步骤3:对于每个数据集通过随机森林算法,并采用5折交叉验证的方式计算对应的得分值,并确定该簇的评分;步骤4:通过各个簇的评分,计算采样权重,确定簇样本合成个数;步骤5:针对每个簇根据样本个数,在在簇内进行样本之间随机线性插值。2.根据权利要求1所述的一种基于聚类的自适应加权过采样方法,其特征在于,所述步骤2中,利用k

means聚类算法将少数类数据划分为多个簇,并与多数类数据结合成多个数据集,具体步骤如下:步骤2.1 从少数类样本中随机的找到k个数据点作为初始聚类簇心;步骤2.2 分别计算每个数据点si到所选k个簇心之间的欧氏距离d(si,cj),找到与每个数据点距离值最小的簇心并分配到该簇中;步骤2.3 分别计算各个类簇中的数据点的平均值,并将其设置为下一次迭代的聚类中心;步骤2.4 循环迭代步骤2.2~步骤2.3,直到满足最大迭代次数,或各个簇心不再发生较大变化;步骤2.5 将步骤2.4得到的k个簇,分别与多数类样本结合成k个数据集。3.根据权利要求1所述的一种基于聚类的自适应加权过采样方法,其特征在于,所述步骤3中,对于每个数据...

【专利技术属性】
技术研发人员:张爽何云斌杨海波
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1