通过局部均值保持实现类数据平衡的方法技术

技术编号：7432342 阅读：174 留言：0更新日期：2012-06-15 00:42

本发明专利技术公开了一种通过局部均值保持实现类数据平衡的方法，1)通过获取训练数据，判别少数类；计算多数类与少数类数据的个数，同时计算多数类数据个数与少数类数据个数比值的整数；2)对少数类中的每个数据计算少数类中的k个近邻，并利用它的k个近邻加权生成一个新数据；3)通过调整权重中的参数并利用每个数据的k个近邻加权求和为每个数据多次生成新数据；4)将新数据标记为少数类，并与原数据合并得到平衡的两类数据；5)平衡后的两类数据用于后续处理，即训练分类算法，实现对新的未标记数据的分类。本发明专利技术可以提高医疗诊断的准确率、提高网络攻击的识别率、提高服务器故障的识别率、提高垃圾网页的识别率等。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种，属于信息

技术介绍
在生产生活中，我们需要对各类数据进行处理，以便从数据中发现有用信息，如分析大量卫星图像确定石油勘探的位置；比对大量的医学影像资料，确定病人是否患有某种疾病；从大量的网络登陆及访问信息中，发现哪些是正常访问及哪些是恶意访问；从收集的大量服务器健康运营信息中发现哪些是非正常信息，以便采取必要措施；从大量的DNA 结构中发现不正常结构信息，从而获取导致不同疾病的根本原因。类似上述问题大量出现，并存在如下共同点数据中不同类别的样例数量存在巨大差异，如网络访问信息，绝大部分访问都是正常访问数据，而恶意访问只占极少部分；识别出现频率低的数据具有更重要意义。具有上述特点的数据集称为类别不平衡数据。其中对两类问题而言，数量多的一类称为多数类，另一类称为少数类。传统分类技术不能很好地对类别不平衡数据进行分类，尤其少数类数据的错分将会导致严重后果。如对一个患有癌症的病人，若通过其影像资料将其诊断为无癌症患者，将耽误治疗，带来生命财产的重大损失。为此解决该问题具有重要价值。目前平衡不同类数据的技术主要有三种，分别是欠采样技术、过采样技术及两者的结合技术。欠取样技术通过从多数类中取出与少数类相当数量的数据，然后应用传统分类技术对平衡后的数据处理。主要技术有随机欠采样、Tomeklinksd. Tomek. Two Modifications of CNN. IEEE Transactions on Systems, Man and Communications SMC-6. 1976,769-772.)欠取样及基于k近邻技术...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员：张化祥，张悦童，
申请(专利权)人：山东师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人