通过局部均值保持实现类数据平衡的方法技术

技术编号:7432342 阅读:174 留言:0更新日期:2012-06-15 00:42
本发明专利技术公开了一种通过局部均值保持实现类数据平衡的方法,1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;4)将新数据标记为少数类,并与原数据合并得到平衡的两类数据;5)平衡后的两类数据用于后续处理,即训练分类算法,实现对新的未标记数据的分类。本发明专利技术可以提高医疗诊断的准确率、提高网络攻击的识别率、提高服务器故障的识别率、提高垃圾网页的识别率等。

【技术实现步骤摘要】

本专利技术涉及一种,属于信息

技术介绍
在生产生活中,我们需要对各类数据进行处理,以便从数据中发现有用信息,如分析大量卫星图像确定石油勘探的位置;比对大量的医学影像资料,确定病人是否患有某种疾病;从大量的网络登陆及访问信息中,发现哪些是正常访问及哪些是恶意访问;从收集的大量服务器健康运营信息中发现哪些是非正常信息,以便采取必要措施;从大量的DNA 结构中发现不正常结构信息,从而获取导致不同疾病的根本原因。类似上述问题大量出现, 并存在如下共同点数据中不同类别的样例数量存在巨大差异,如网络访问信息,绝大部分访问都是正常访问数据,而恶意访问只占极少部分;识别出现频率低的数据具有更重要意义。具有上述特点的数据集称为类别不平衡数据。其中对两类问题而言,数量多的一类称为多数类,另一类称为少数类。传统分类技术不能很好地对类别不平衡数据进行分类,尤其少数类数据的错分将会导致严重后果。如对一个患有癌症的病人,若通过其影像资料将其诊断为无癌症患者,将耽误治疗,带来生命财产的重大损失。为此解决该问题具有重要价值。目前平衡不同类数据的技术主要有三种,分别是欠采样技术、过采样技术及两者的结合技术。欠取样技术通过从多数类中取出与少数类相当数量的数据,然后应用传统分类技术对平衡后的数据处理。主要技术有随机欠采样、Tomeklinksd. Tomek. Two Modifications of CNN. IEEE Transactions on Systems, Man and Communications SMC-6. 1976,769-772.)欠取样及基于k近邻技术的欠取样。欠采样去掉部分多数类数据, 会丢失原数据集的部分信息。另一种技术对少数类数据进行过取样处理,主要技术有随机过采样、SMOTE技术及各种SMOTE变种。过采样技术通过随机复制少数类数据增加少数类,但单纯复制少数类数据会造成分类算法的过拟合。SMOTE(N. Chawla,K. Bowyer,L. Hall, W.P. Kegelmeyer, SMOTE synthetic minority over-sampling technique, Journal of Artificial Intelligence Research 16 Q002) 321-:357.)在少数类两相邻数据间采用线性插值产生人工数据达到平衡不同类数据的目的,其他SMOTE变种方法采用类似技术,只是对特定的少数类数据执行插值操作。该类方法不是通过复制而是通过生成新数据平衡数据,避免了分类算法的过拟合,但存在破坏数据局部一致性等问题。将上述欠取样及过取样两者结合的技术同样存在上述问题。
技术实现思路
本专利技术的目的就是为解决上述问题,提供一种,可保证数据的分类效果较少受到为提高分类准确度而做的各种数据变换的影响; 同时对于大量具有流形结构的数据如DNA数据、医学影像数据等,局部一致性保持更加重要,直接影响数据的分类效果。为实现上述目的,本专利技术采用如下技术方案—种,1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;4)将新数据标记为少数类,并与原数据一并作为训练数据,训练分类算法,实现对数据的分类。所述步骤1)中,少数类是指具有某个标记的数据个数最少的那一类,具有其它标记的数据都称为多数类数据。所述步骤1)中,计算多数类与少数类数据的个数只针对类别标记个数为2的情况。所述步骤1)中,多数类数据个数与少数类数据个数比值的整数是指不大于两者商的最大整数。所述步骤幻中,k个近邻指k个与指定数据的欧几里德距离最近的数据,欧几里德距离为两个数据差的模。所述步骤幻中,权重由高斯分布函数定义,其中的参数为该分布的方差。所述加权求和为计算k个近邻与对应权重的乘积之和,并除以k个权重之和。所述方差的调整通过方差乘以0. 9实现。本专利技术的具体步骤为a假设给定的少数类数据集合由D+表示,多数类数据集合由D—,令s = inf| (D_|/|D+|,其中IdI和|d+|分别表示多数类及少数类数据的个数,s为不大于两者商的最大整数;b计算D+数据集合中数据的方差,记为t;对于VA.el/ (其中i = 1,2,…,ID+1),从集合D+中选择k个与Xi的欧式距离最小的数据,这些数据组成集合Ne (Xi);对于 GNe(Xi)(其中j = 1,2,…,k),则Xi与\的欧式距离为范数I IxiIjI | ;k 一般设定为6;c定义权重权利要求1.一种,其特征是,1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据;4)将新数据标记为少数类,并与原数据一并作为训练数据,训练分类算法,实现对数据的分类。2.如权利要求1所述的,其特征是,所述步骤1)中,少数类是指具有某个标记的数据个数最少的那一类,具有其它标记的数据都称为多数类数据。3.如权利要求1所述的,其特征是,所述步骤1)中,计算多数类与少数类数据的个数只针对类别标记个数为2的情况。4.如权利要求1所述的,其特征是,所述步骤1)中,多数类数据个数与少数类数据个数比值的整数是指不大于两者商的最大整数。5.如权利要求1所述的,其特征是,所述步骤2)中,k个近邻指k个与指定数据的欧几里德距离最近的数据,欧几里德距离为两个数据差的模。6.如权利要求1所述的,其特征是,所述步骤3)中,权重由高斯分布函数定义,其中的参数为该分布的方差。7.如权利要求1所述的,其特征是,所述加权求和为计算k个近邻与对应权重的乘积之和,并除以k个权重之和。8.如权利要求6所述的,其特征是,所述方差的调整通过方差乘以0. 9实现。9.如权利要求1-8任一所述的,其特征是, 具体步骤为a假设给定的少数类数据集合由D+表示,多数类数据集合由D—,令s = inf | (D_ | / | D+1, 其中|D_|和ID+I分别表示多数类及少数类数据的个数,S为不大于两者商的最大整数;b计算D+数据集合中数据的方差,记为t ;对于V^. G D+,从集合D+中选择k个与Xi的欧式距离最小的数据,这些数据组成集合Ne(Xi);对于GNe(Xi),则Xi与~的欧式距离为范数I I Xi-Xj I I ;k—般设定为6;其中j = l,2,…,k;c定义权重10.如权利要求1所述通过局部均值保持实现类平衡的数据,用于训练分类器,所述分类算法为决策树、神经网络、贝叶斯分类器及支持向量机算法。全文摘要本专利技术公开了一种,1)通过获取训练数据,判别少数类;计算多数类与少数类数据的个数,同时计算多数类数据个数与少数类数据个数比值的整数;2)对少数类中的每个数据计算少数类中的k个近邻,并利用它的k个近邻加权生成一个新数据;3)通过调整权重中的参数并利用每个本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:张化祥张悦童
申请(专利权)人:山东师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术