【技术实现步骤摘要】
基于采样与特征简约的非平衡数据集转换方法及系统
本专利技术属于非平衡数据转换
,特别涉及一种基于采样与特征简约的非平衡数据集转换方法及系统。
技术介绍
非平衡数据集转换方法是对非平衡数据集进行分类时,从数据层面对数据集进行重构,以降低非平衡度,提高分类准确度的方法。非平衡数据集分类是指各类样本数据不相等的情况下的分类问题。以二分类问题为例,即某一类数据样本所占比例明显超过其他类别的数据样本。其中,比例多的样本组成多数类样本集,比例少的样本组成少数类样本集。非平衡数据在现实生活中应用非常广泛,比如风险入侵检测、罕见病预测、金融诈骗等领域。数据层面中最常用的方法为对少数类样本集进行过采样处理,通过增加少数类样本使数据集分布相对平衡。1.现有的对少数类样本集进行过采样的方法对所有的少数类样本集一视同仁,未考虑不同少数类样本集分类器的不同重要度;2.数据集的特征对分类器的性能具有很重要的影响,如果特征中包含较多对分类结果没有作用的字段,会给分类器的训练过程带来较大的复杂度。
技术实现思路
为了解决现有技术中存在的问题,本专利技术提供一种基于采样与特征简约的非平衡数据集转换方法。为达到上述目的,本专利技术采用如下技术方案:本专利技术提供一种基于采样与特征简约的非平衡数据集转换方法,该方法包括:获取非平衡数据集,所述非平衡数据集包括多数类样本集和少数类样本集;对非平衡数据集进行采样处理,获得新的非平衡数据集;对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集。优选的技术方案,所述对非平衡数据集进行采样处理包括对少数类样本集进行过采样,包括利用S-NKS ...
【技术保护点】
1.一种基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述方法包括:获取非平衡数据集,所述非平衡数据集包括多数类样本集和少数类样本集;对非平衡数据集进行采样处理,获得新的非平衡数据集;对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集。
【技术特征摘要】
1.一种基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述方法包括:获取非平衡数据集,所述非平衡数据集包括多数类样本集和少数类样本集;对非平衡数据集进行采样处理,获得新的非平衡数据集;对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集。2.根据权利要求1所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述对非平衡数据集进行采样处理包括对少数类样本集进行过采样,包括利用S-NKSMOTE算法对少数类样本集进行过采样,具体为:获得少数类样本集内样本x的k个近邻样本;将k个近邻样本中的少数类样本个数与多数类样本个数进行比较,当少数类样本的个数多于多数类样本的个数时,标记x为安全样本,当少数类样本的个数少于多数类样本的个数,且存在少数类样本,标记x为危险样本,当k个近邻样本全是多数类样本,标记x为噪声样本;当x为噪声样本时,在少数类样本集中随机选择一个样本x’,依照以下方式生成靠近少数类样本的新样本Xnew,所有新样本形成了新的少数类样本集;Xnew=x+rand(0.5,1)·(x’-x)当x不是噪声样本时,从其k个近邻样本中随机选择1个样本x’,如果x’属于多数类样本,则依照以下方式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集;Xnew=x+rand(0,0.5)·(x’-x)如果x’属于少数类样本,则依照下列公式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集:Xnew=x+rand(0,1)·(x’-x)。3.根据权利要求1所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述对新的非平衡数据集进行降维处理的具体方法为:分析新的非平衡数据集内每一类样本的特征与对应类别标签的相关性,并将特征按照与类别标签的相关性从大到小进行排序;从特征的最后一维开始按照顺序依次删除一维特征,每删除一维特征将减少一维特征后的新的非平衡数据集输入到随机森林模型中,并计算出每减少一维特征后的新的非平衡数据集对应的ACC值;比较所有ACC值,选取最大ACC值对应的特征维度,即为特征简约后的特征维度。4.根据权利要求2所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述对非平衡数据集进行采样处理还包括对多数类样本集进行欠采样,具体为:获取多数类样本集和少数类样本集的边界样本集;获取边界样本集的中心样本;计算多数类样本集内每一多数类样本距离中心样本的距离,并根据计算的距离对多数类样本集进行欠采样,获得新的多数类样本集,新的多数类样本集和新的少数类样本集合成了新的非平衡数据集。5.根据权利要求4所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,获取多数类样本集和少数类样本集的边界样本集的具体方法为:分别计算多数类样本集中每一多数类样本与其最近的少数类样本的距离;分别计算少数类样本集中每一少数类样本与其最近的多数类样本的距离;挑选出最小距离对应的多数类样本和少数类...
【专利技术属性】
技术研发人员:龙春,魏金侠,万巍,赵静,杨帆,
申请(专利权)人:中国科学院计算机网络信息中心,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。