基于采样与特征简约的非平衡数据集转换方法及系统技术方案

技术编号:22330773 阅读:28 留言:0更新日期:2019-10-19 12:24
本发明专利技术提供一种基于采样与特征简约的非平衡数据集转换方法及系统,该方法利用采样方法对非平衡数据集中的样本进行采样,使少数类样本数目达到与多数类样本数目接近平衡;然后利用特征与类别标签之间的相关性对特征进行从大到小的排序;再从特征的最后一维开始按照顺序依次删除一维特征,每删除一维特征就将减少一维特征的样本数据集输入随机森林模型,计算这些样本对应的ACC值,比较所有ACC值,选取最大ACC值对应的特征维度作为特征约简的目标特征维度。通过以上转换方法获得的新的非平衡数据输入到多分类SVM进行训练,可显著提高分类的准确性。

【技术实现步骤摘要】
基于采样与特征简约的非平衡数据集转换方法及系统
本专利技术属于非平衡数据转换
,特别涉及一种基于采样与特征简约的非平衡数据集转换方法及系统。
技术介绍
非平衡数据集转换方法是对非平衡数据集进行分类时,从数据层面对数据集进行重构,以降低非平衡度,提高分类准确度的方法。非平衡数据集分类是指各类样本数据不相等的情况下的分类问题。以二分类问题为例,即某一类数据样本所占比例明显超过其他类别的数据样本。其中,比例多的样本组成多数类样本集,比例少的样本组成少数类样本集。非平衡数据在现实生活中应用非常广泛,比如风险入侵检测、罕见病预测、金融诈骗等领域。数据层面中最常用的方法为对少数类样本集进行过采样处理,通过增加少数类样本使数据集分布相对平衡。1.现有的对少数类样本集进行过采样的方法对所有的少数类样本集一视同仁,未考虑不同少数类样本集分类器的不同重要度;2.数据集的特征对分类器的性能具有很重要的影响,如果特征中包含较多对分类结果没有作用的字段,会给分类器的训练过程带来较大的复杂度。
技术实现思路
为了解决现有技术中存在的问题,本专利技术提供一种基于采样与特征简约的非平衡数据集转换方法。为达到上述目的,本专利技术采用如下技术方案:本专利技术提供一种基于采样与特征简约的非平衡数据集转换方法,该方法包括:获取非平衡数据集,所述非平衡数据集包括多数类样本集和少数类样本集;对非平衡数据集进行采样处理,获得新的非平衡数据集;对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集。优选的技术方案,所述对非平衡数据集进行采样处理包括对少数类样本集进行过采样,包括利用S-NKSMOTE算法对少数类样本集进行过采样,具体为:获得少数类样本集内样本x的k个近邻样本;将k个近邻样本中的少数类样本个数与多数类样本个数进行比较,当少数类样本的个数多于多数类样本的个数时,标记x为安全样本,当少数类样本的个数少于多数类样本的个数,且存在少数类样本,标记x为危险样本,当k个近邻样本全是多数类样本,标记x为噪声样本;当x为噪声样本时,在少数类样本集中随机选择一个样本x’,依照以下方式生成靠近少数类样本的新样本Xnew,所有新样本形成了新的少数类样本集;Xnew=x+rand(0.5,1)·(x’-x)当x不是噪声样本时,从其k个近邻样本中随机选择1个样本x’,如果x’属于多数类样本,则依照以下方式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集;Xnew=x+rand(0,0.5)·(x’-x)如果x’属于少数类样本,则依照下列公式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集:Xnew=x+rand(0,1)·(x’-x)。优选的技术方案,所述对新的非平衡数据集进行降维处理的具体方法为:分析新的非平衡数据集内每一类样本的特征与对应类别标签的相关性,并将特征按照与类别标签的相关性从大到小进行排序;从特征的最后一维开始按照顺序依次删除一维特征,每删除一维特征将减少一维特征后的新的非平衡数据集输入到随机森林模型中,并计算出每减少一维特征后的新的非平衡数据集对应的ACC值;比较所有ACC值,选取最大ACC值对应的特征维度,即为特征简约后的特征维度。优选的技术方案,所述对非平衡数据集进行采样处理还包括对多数类样本集进行欠采样,具体为:获取多数类样本集和少数类样本集的边界样本集;获取边界样本集的中心样本;计算多数类样本集内每一多数类样本距离中心样本的距离,并根据计算的距离对多数类样本集进行欠采样,获得新的多数类样本集,新的多数类样本集和新的少数类样本集合成了新的非平衡数据集。优选的技术方案,获取多数类样本集和少数类样本集的边界样本集的具体方法为:分别计算多数类样本集中每一多数类样本与其最近的少数类样本的距离;分别计算少数类样本集中每一少数类样本与其最近的多数类样本的距离;挑选出最小距离对应的多数类样本和少数类样本;获得多数类样本的m个近邻样本和少数类样本的n个近邻样本;获得边界样本集D,D=m∩n。优选的技术方案,获取边界样本集的中心样本的具体方法为:分别求取边界样本集内每一样本距离边界样本集内所有其他样本的距离;分别计算各样本对应距离的方差SD和距离总和E;计算分散度B,B=SD*E;挑选出分散度最小的样本作为中心样本。优选的技术方案,计算多数类样本集内每一样本距离中心样本的距离,并根据计算的距离对多数类样本集进行欠采样,具体方法为:计算多数类样本集内每一样本距离中心样本的距离;按照距离从小到大进行排序,然后形成R×T的矩阵;计算矩阵内每一行距离的相对标准偏差RSD;将相对标准偏差RSD与阈值RSD1进行比较,当RSD≤RSD1时,计算该行距离的平均值,并计算出该行内每一个距离与平均值的差值,将差值大于阈值对应的样本删除;当RSD>RSD1时,将该行对应的所有样本删除;矩阵内每删除一行样本后,将减少一行样本后的多数类样本集输入到随机森林模型中;计算ΔGm1,ΔGm1=Gmi-Gm,Gmi为删除第i行样本后的多数类样本集输入到随机森林模型中输出的G_mean值,Gm为原始的非平衡数据集输入到随机森林模型中输出的G_mean值;将ΔGm1与阈值ΔGm进行比较,当ΔGm1≥ΔGm时,停止欠采样,此时的样本即为新的多数类样本集。优选的技术方案,所述对少数类样本集进行过采样为计算少数类样本集内每一少数类样本距离中心样本的距离,并根据计算的距离对少数类样本集进行过采样,获得新的少数类样本集,具体包括:计算少数类样本集内每一样本距离中心样本的距离;将距离按从小到大排序,形成R’×T’的矩阵;从第一行开始,利用S-NKSMOTE算法对每一行对应的样本进行过采样;矩阵内每一行的样本经过过采样后,将经过过采样后形成的样本集输入到到随机森林模型中;计算ΔGm2,ΔGm2=Gmj-Gm,Gmj为第j行样本经过过采样后形成的少数类样本集输入到随机森林模型中输出的G_mean值,Gm为原始的非平衡数据集输入到随机森林模型中输出的G_mean值;将ΔGm2与阈值ΔGm进行比较,当ΔGm2≥ΔGm时,停止过采样,此时的样本即为新的少数类样本集。本专利技术另一方面提供一种基于采样与特征简约的非平衡数据集转换系统,该转换系统包括:获取非平衡数据集的数据获取模块;所述非平衡数据集包括多数类样本集和少数类样本集;对非平衡数据集进行采样处理,获得新的非平衡数据集的采样处理模块;对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集的降维处理模块。本专利技术再一方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术提供的基于采样与特征简约的非平衡数据集转换方法的步骤。本专利技术提供的基于采样与特征简约的非平衡数据集转换方法,首先利用采样方法对非平衡数据集中的样本进行采样,使少数类的样本数目达到与多数类样本数目接近平衡,降低少数类样本的不平衡性。然后利用特征与类别标签之间的相关性对特征进行从大到小的排序;再从特征的最后一维开始按照顺序依次删除一维特征,每删除一维特征就将减少一维特征的样本数据集输入随机森林模型,利用随机森林计算这些样本对应的ACC值作为适应度,直到计算到只剩下第一维特征(从最后一维开始删除,每删除特征一次就将数据集输入随机森林本文档来自技高网...

【技术保护点】
1.一种基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述方法包括:获取非平衡数据集,所述非平衡数据集包括多数类样本集和少数类样本集;对非平衡数据集进行采样处理,获得新的非平衡数据集;对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集。

【技术特征摘要】
1.一种基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述方法包括:获取非平衡数据集,所述非平衡数据集包括多数类样本集和少数类样本集;对非平衡数据集进行采样处理,获得新的非平衡数据集;对新的非平衡数据集进行降维处理,转换成特征简约的新的非平衡数据集。2.根据权利要求1所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述对非平衡数据集进行采样处理包括对少数类样本集进行过采样,包括利用S-NKSMOTE算法对少数类样本集进行过采样,具体为:获得少数类样本集内样本x的k个近邻样本;将k个近邻样本中的少数类样本个数与多数类样本个数进行比较,当少数类样本的个数多于多数类样本的个数时,标记x为安全样本,当少数类样本的个数少于多数类样本的个数,且存在少数类样本,标记x为危险样本,当k个近邻样本全是多数类样本,标记x为噪声样本;当x为噪声样本时,在少数类样本集中随机选择一个样本x’,依照以下方式生成靠近少数类样本的新样本Xnew,所有新样本形成了新的少数类样本集;Xnew=x+rand(0.5,1)·(x’-x)当x不是噪声样本时,从其k个近邻样本中随机选择1个样本x’,如果x’属于多数类样本,则依照以下方式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集;Xnew=x+rand(0,0.5)·(x’-x)如果x’属于少数类样本,则依照下列公式生成靠近x的新样本Xnew,所有新样本形成了新的少数类样本集:Xnew=x+rand(0,1)·(x’-x)。3.根据权利要求1所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述对新的非平衡数据集进行降维处理的具体方法为:分析新的非平衡数据集内每一类样本的特征与对应类别标签的相关性,并将特征按照与类别标签的相关性从大到小进行排序;从特征的最后一维开始按照顺序依次删除一维特征,每删除一维特征将减少一维特征后的新的非平衡数据集输入到随机森林模型中,并计算出每减少一维特征后的新的非平衡数据集对应的ACC值;比较所有ACC值,选取最大ACC值对应的特征维度,即为特征简约后的特征维度。4.根据权利要求2所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,所述对非平衡数据集进行采样处理还包括对多数类样本集进行欠采样,具体为:获取多数类样本集和少数类样本集的边界样本集;获取边界样本集的中心样本;计算多数类样本集内每一多数类样本距离中心样本的距离,并根据计算的距离对多数类样本集进行欠采样,获得新的多数类样本集,新的多数类样本集和新的少数类样本集合成了新的非平衡数据集。5.根据权利要求4所述的基于采样与特征简约的非平衡数据集转换方法,其特征在于,获取多数类样本集和少数类样本集的边界样本集的具体方法为:分别计算多数类样本集中每一多数类样本与其最近的少数类样本的距离;分别计算少数类样本集中每一少数类样本与其最近的多数类样本的距离;挑选出最小距离对应的多数类样本和少数类...

【专利技术属性】
技术研发人员:龙春魏金侠万巍赵静杨帆
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1