【技术实现步骤摘要】
一种不平衡数据集的过采样方法
本专利技术涉及数据挖掘和机器学习领域,具体涉及一种不平衡数据集的过采样方法。
技术介绍
近些年,分类算法取得了长足的发展,但是随着数据来源的扩大,人们获得的不平衡数据越来越多。现有分类算法对不平衡数据敏感,直接采用现有分类算法难以对不平衡数据进行准确分类。在二分类问题中,不平衡样本数据集是指某一类的样本数量明显少于另一类样本数量,数量占优势的类别通常称为负类或多数类,数量稀少的分类通常称为正类或少数类。相关学者通过大量实验总结了不平衡数据集异常点、噪声和某一类样本数量稀少等问题,得出了分类器在分类预测不平衡数据集时,结果倾向于多数类,造成很大的预测误差。实际数据集如癌症诊断、血液样本中心、网络信息安全等数据集通常是不平衡的,所以需要改进传统算法解决数据集不平衡分类问题。有的学者以随机向上抽样为核心思想提出了SMOTE算法(合成少数过采样技术),通过人为构造正类样本使得数据集中负类样本和正类样本的数量趋于平衡;也有学者提出了将boosting机器学习思想与样本构造结合起来,对原始正 ...
【技术保护点】
1.一种不平衡数据集的过采样方法,其特征在于,包含以下过程:/n步骤S1将获取的不平衡数据集划分为正类样本集和负类样本集;/n步骤S2求解正类样本集的质心以及距离质心最远的三个正类样本,以所求的三个正类样本为顶点建立三角形;/n步骤S3随机选取其中一个三角形顶点与质心连线,并在所述连线上随机生成新的正类样本;/n步骤S4评估新生正类样本合理性,将评估合理的新生正类样本加入正类样本集实现对正类样本集的更新;/n步骤S5更新的正类样本集与负类样本集的样本量不等时重复步骤3和步骤4生成新的正类样本继续补充正类样本集,直到更新的正类样本集与负类样本集的样本量平衡。/n
【技术特征摘要】
1.一种不平衡数据集的过采样方法,其特征在于,包含以下过程:
步骤S1将获取的不平衡数据集划分为正类样本集和负类样本集;
步骤S2求解正类样本集的质心以及距离质心最远的三个正类样本,以所求的三个正类样本为顶点建立三角形;
步骤S3随机选取其中一个三角形顶点与质心连线,并在所述连线上随机生成新的正类样本;
步骤S4评估新生正类样本合理性,将评估合理的新生正类样本加入正类样本集实现对正类样本集的更新;
步骤S5更新的正类样本集与负类样本集的样本量不等时重复步骤3和步骤4生成新的正类样本继续补充正类样本集,直到更新的正类样本集与负类样本集的样本量平衡。
2.如权利要求1所述过采样方法,其特征在于,步骤S1通过样本的Class字段值对不平衡数据集X进行划分,Class字段值为1的样本划入正类样本集Xpositive,Class字段值为0的样本划入负类样本集Xnegative。
3.如权利要求1所述过采样方法,其特征在于,步骤S2进一步包含以下过程:
设定正类样本集Xpositive中的正类样本为N个,每一个正类样本表示为:
xi=(xi1,xi2,xi3,...,xin)(1)
其中,n表示每个正样本数据的维数,i∈[1,N];
设定y质为正类样本集Xpositive的质心,y质表示为:
y质=(y1,y2,y3,...,yn)(2)
其中,
遍历所有正类样本xi,选出到质心y质距离最大的三个样本,并根据距离,由大到小依次表示为xfmax、xsmax、xtmax。
4.如权利要求3所述过采样方法,其特征在于,正类样本xi到质心y质距离采用欧式距离公式进行计算,可表示为:
5.如权利要求3所述过采样方法,其特征在于,步骤S3中,新生正类样本表示为xnew,计算公式为:
xnew=y质+rand(0,1)×(xm-y质)(4)
其中,xm={xfmax,xsmax,xtmax},rand(0,1)表示随机生成的(0,1)之间小数。
6.如权利要求1或3所述过采样方法,其特征在于,步骤S4中利用CCA初步评估新生正类样本xnew的合理性,包含以下过程:
步骤H1根据K-means算法对新生正类样本x...
【专利技术属性】
技术研发人员:程陈,孙伟,余盖青,费若岚,王长静,
申请(专利权)人:上海海事大学,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。