【技术实现步骤摘要】
:本专利技术涉及基于一种少数类簇加权的过采样算法,该方法将少数类样本分为安全点样本和边界点样本,分别对这两种类别的点使用不同的方法赋予相应的权值,再使用一种改进的smote方法来合成新的少数类样本。从而使数据集样本达到更好的平衡比例。
技术介绍
0、
技术介绍
:
1、不平衡数据处理是机器学习和数据挖掘中一个重要的问题,因为在现实世界中,很多数据集都存在类别不平衡的情况,即某些类别的样本数量远远多于或远远少于其他类别的样本数量。这种情况会导致模型在训练和评估过程中出现偏向性,使得模型更倾向于预测样本数量较多的类别,而对于样本数量较少的类别则表现不佳。
2、根据不同的策略,国内外的研究学者对不平衡数据的处理主要在两个方面,分别是数据层面和算法层面。数据层面的处理思路就是根据某种规则,人为地通过删减多数类实例或者增加少数类实例来改善原有数据集的不平衡度,通过尽可能地使原始数据集趋于平衡,有效解决不平衡数据正负类样本分布不平衡的情况,根据数据预处理过程中采样方式的不同,将采样分为三部分:欠采样、过采样和混合采样,其中主流是
...【技术保护点】
1.基于少数类簇加权的过采样算法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤1中,对少数类样本k-means聚类,具体步骤为:
3.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤2中,将合成后的数据集的平衡比例设为1:1,计算整个数据集最后需要合成的新样本的总数量,具体公式如下:
4.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤3中。根据采样率计算出每个少数类簇所需要合成的少数类样本的数量。具体公式如下:
...
【技术特征摘要】
1.基于少数类簇加权的过采样算法,其特征在于,该方法包括以下步骤:
2.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤1中,对少数类样本k-means聚类,具体步骤为:
3.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤2中,将合成后的数据集的平衡比例设为1:1,计算整个数据集最后需要合成的新样本的总数量,具体公式如下:
4.根据权利要求1所述的基于少数类簇加权的过采样算法,其特征在于,所述步骤3中。根据采样...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。