一种基于聚类的自适应加权过采样方法技术

技术编号：30018031 阅读：18 留言：0更新日期：2021-09-11 06:30

本发明专利技术涉及一种基于聚类的自适应加权过采样方法，本发明专利技术首先对少数类样本数据进行k

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类的自适应加权过采样方法

[0001]本专利技术涉及数据挖掘领域，尤其涉及一种基于聚类的自适应加权过采样方法。

技术介绍

[0002]不平衡数据广泛存在于实际应用问题中，当不同类别的样本数目不均衡，甚至相差甚远时，我们认为具有这样数据分布的数据集就是不平衡数据集。对于不平衡学习，急需解决的根本问题是由于数据分布的不均衡导致很多传统机器学习的分类算法性能大大减弱。
[0003]随着不平衡数据集处理的研究的深入发展，目前，针对不平衡数据问题研究的热点主要有两个方面：一是对算法层面的研究，二是对数据层面的研究。对于数据层面来说，主要分为过采样、欠采样和混合采样。相较于另外两种采样方法，过采样方法通过生成少数类样本的方式平衡数据集，同时也能够避免多数类中拥有重要信息的数据样本丢失。随着过采样的逐渐发展，很多方法比如SMOTE、Borderline
‑
SMOTE、ADASYN等等流行开来，但是这些方法只是基于少数类样本信息进行采样，没有考虑到实际与多数类结合时的分类情况，导致在合成样本的时候精准性上有所下降。

技术实现思路

[0004]本专利技术的目的在于提供一种对少数类样本数据进行聚类，通过各个簇与多数类的分类情况，确定簇采样权重，从而提高生成少数类样本质量的一种过采样方法。
[0005]实现本专利技术目的的技术解决方案为：一种基于聚类的自适应加权过采样方法，其特征在于，包括以下步骤。
[0006]步骤1：对不平衡数据集作为输入，区分出少数类样本和多数类样本...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的自适应加权过采样方法，其特征在于，包括以下步骤：步骤1：对不平衡数据集作为输入，区分出少数类样本和多数类样本，计算需要生成的样本个数；步骤2：利用k
‑
means聚类算法将少数类数据划分为多个簇，并与多数类数据结合成多个数据集；步骤3：对于每个数据集通过随机森林算法，并采用5折交叉验证的方式计算对应的得分值，并确定该簇的评分；步骤4：通过各个簇的评分，计算采样权重，确定簇样本合成个数；步骤5：针对每个簇根据样本个数，在在簇内进行样本之间随机线性插值。2.根据权利要求1所述的一种基于聚类的自适应加权过采样方法，其特征在于，所述步骤2中，利用k
‑
means聚类算法将少数类数据划分为多个簇，并与多数类数据结合成多个数据集，具体步骤如下：步骤2.1 从少数类样本中随机的找到k个数据点作为初始聚类簇心；步骤2.2 分别计算每个数据点si到所选k个簇心之间的欧氏距离d(si,cj)，找到与每个数据点距离值最小的簇心并分配到该簇中；步骤2.3 分别计算各个类簇中的数据点的平均值，并将其设置为下一次迭代的聚类中心；步骤2.4 循环迭代步骤2.2～步骤2.3，直到满足最大迭代次数，或各个簇心不再发生较大变化；步骤2.5 将步骤2.4得到的k个簇，分别与多数类样本结合成k个数据集。3.根据权利要求1所述的一种基于聚类的自适应加权过采样方法，其特征在于，所述步骤3中，对于每个数据...

【专利技术属性】
技术研发人员：张爽，何云斌，杨海波，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人