一种基于少数类簇加权的过采样算法制造技术

技术编号:43967461 阅读:21 留言:0更新日期:2025-01-10 19:56
本发明专利技术涉及一种基于少数类簇加权的过采样算法。本发明专利技术首先对原始数据集中的所有少数类样本进行k‑means聚类,形成多个少数类簇,将少数类样本划为安全点,边界点和噪声点,并将噪声点删除。其次结合采样率计算出每个少数类簇需要合成的少数类样本的数量,然后根据边界点样本和安全点样本的分布情况,分别以不同的方法为边界点样本和安全点样本分布权重。最后根据每个少数类样本点的权重使用改进后的SMOTE算法生成少数类样本,使数据集达到平衡状态;利用UCI数据库中的6组标准版公开数据集进行测试,验证了该方法可以有效降低少数类样本的重叠率,提高分类器对少数类样本的分类精度。本发明专利技术更准确分析了数据集原始分布情况,降低了样本间的冗余性,从而提高了分类器的性能。

【技术实现步骤摘要】

:本专利技术涉及基于一种少数类簇加权的过采样算法,该方法将少数类样本分为安全点样本和边界点样本,分别对这两种类别的点使用不同的方法赋予相应的权值,再使用一种改进的smote方法来合成新的少数类样本。从而使数据集样本达到更好的平衡比例。


技术介绍

0、
技术介绍

1、不平衡数据处理是机器学习和数据挖掘中一个重要的问题,因为在现实世界中,很多数据集都存在类别不平衡的情况,即某些类别的样本数量远远多于或远远少于其他类别的样本数量。这种情况会导致模型在训练和评估过程中出现偏向性,使得模型更倾向于预测样本数量较多的类别,而对于样本数量较少的类别则表现不佳。

2、根据不同的策略,国内外的研究学者对不平衡数据的处理主要在两个方面,分别是数据层面和算法层面。数据层面的处理思路就是根据某种规则,人为地通过删减多数类实例或者增加少数类实例来改善原有数据集的不平衡度,通过尽可能地使原始数据集趋于平衡,有效解决不平衡数据正负类样本分布不平衡的情况,根据数据预处理过程中采样方式的不同,将采样分为三部分:欠采样、过采样和混合采样,其中主流是欠采样和过采样。算法本文档来自技高网...

【技术保护点】

1.基于少数类簇加权的过采样算法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤1中,对少数类样本k-means聚类,具体步骤为:

3.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤2中,将合成后的数据集的平衡比例设为1:1,计算整个数据集最后需要合成的新样本的总数量,具体公式如下:

4.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤3中。根据采样率计算出每个少数类簇所需要合成的少数类样本的数量。具体公式如下:

5.根据权利要求1所...

【技术特征摘要】

1.基于少数类簇加权的过采样算法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤1中,对少数类样本k-means聚类,具体步骤为:

3.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤2中,将合成后的数据集的平衡比例设为1:1,计算整个数据集最后需要合成的新样本的总数量,具体公式如下:

4.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤3中。根据采样...

【专利技术属性】
技术研发人员:何云斌李成龙董明锐
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1