【技术实现步骤摘要】
一种面向不平衡数据的双向采样方法
[0001]本专利技术属于数据采样
,具体涉及一种面向不平衡数据的双向采样方法。
技术介绍
[0002]随着大数据技术体系和物联网技术的发展,机器学习在智能决策、模式识别、优化调整等领域占有重要的地位,而分类学习又是机器学习重要研究方向之一。但是在实际生产中会出现数据集不平衡的问题,依据不平衡的数据集所构造的分类器会使预测结果更多地偏向多数类,而往往少数类样本是重要的研究对象。
[0003]在数据层面解决数据不平衡问题的方法主要为对少数类样本进行过采样,或对多数类样本进行欠采样处理。过采样算法中使用较多的是SMOTE算法,其思路是在少数类中近邻的样本点间生成新的样本来增加样本数量,使样本数量均衡。但是该算法在近邻选择时存在一定的盲目性,生成的新数据具有很高的重合度,计算量大,且新数据没有揭示太多信息,极易放大噪声。对于欠采样的方法,基于K
‑
means聚类的ClusterCentroids欠采样在减少样本数量方面十分高效,其思路是利用聚类后的簇芯代替整个簇的数 ...
【技术保护点】
【技术特征摘要】
1.一种面向不平衡数据的双向采样方法,其特征在于,包括如下步骤:步骤S1:设定界线值m,将所有类以界线值m划分多数类样本集Smost和少数类样本集Smin;并将m为作为多数类和少数类的目标样本数量;步骤S2:使用ClusterCentroid算法类将多数类样本集中的样本分为若干簇,保留簇芯并剔除多余样本;步骤S3:通过SMOTE算法对少数类样本过采样,生成新的样本集;步骤S4:将调整过的多数类和少数类样本合并为新的数据集。2.根据权利要求1所述的面向不平衡数据的双向采样方法,其特征在于,所述步骤S1,界线值m按如下方法获得:找出所有类中样本数量最大值N
max
和最小值N
min
,以二者的平均值为界线m,将所有类以界线值m划分为多数类样本集S
most
和少数类样本集S
min
;并将m为作为多数类和少数类的目标样本数量;式中,round()为四舍五入函数。3.根据权利要求2所述的面向不平衡数据的双向采样方法,其特征在于,所述步骤S2,具体包括如下步骤:步骤S2.1:对于多数类样本集S
most
,使用k
‑
means++算法进行聚类,将其分成m簇C=(C1,C2,
…
,C
i
…
,C
m
),C
i
表示第i个簇,i∈[1,m];步骤S2.2:保留簇芯,剔除其他数据,m个簇芯组成新的样本集,作为调整后的多数类样本集NewS
most
,NewS
most
=(c1,c2,
…
,c
i
…
,c
...
【专利技术属性】
技术研发人员:施俊杰,宋德禹,郑胜尧,陈双双,胡樾明,
申请(专利权)人:河海大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。