一种基于改进SMOTE算法的非平衡数据集处理方法及系统技术方案

技术编号:25948873 阅读:25 留言:0更新日期:2020-10-17 03:40
本发明专利技术涉及一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:首先计算少数类样本的重心点,其次构建一个少数类小区域的重心点,然后将少数类样本与集合M的每个样本分别进行随机线性插值,合成新的少数类样本并添加到数据集中;最后判断新数据集的非平衡率,若还是过小则重复以上步骤否则停止。改进后的SMOTE算法可以克服传统SMOTE算法处理噪声和边缘性样本的问题,相比于随机森林处理在处理非平衡数据集时的分类效果有显著的提高。

【技术实现步骤摘要】
一种基于改进SMOTE算法的非平衡数据集处理方法及系统
本专利技术属于电力数据处理领域,涉及一种非平衡数据集处理方法,特别是一种基于改进SMOTE算法的非平衡数据集处理方法。
技术介绍
近年来,随着信息产业的快速发展,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,如何对其进行更高层次的分析,以便更好地利用这些数据,变得越来越重要。传统的数据管理方法可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中潜在的、有用的关系和规则。为了挖掘数据背后隐藏的知识,解决“数据爆炸但知识贫乏”问题,人们努力寻求各种新方法和技术,以便使数据能够转化成有用的信息和知识。数据挖掘在这种背景下应运而生了。数据挖掘领域的研究日趋成熟,其中许多研究把方法和模型建立在理想的数据而不是现实的数据集上。但现实中的数据是错综复杂的,总体而言,他们不可避免的存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况,这样的数据简称为“脏数据”,它们成为数据挖掘的一大障碍。要在基于历史的、现存的数据基础上去为将来的企业发展作决策或预测时,数据的质量问题就变得很关键。根据“垃圾进,垃圾出”原理,错误的数据会导致昂贵的操作费用和漫长的响应时间,影响从数据集中抽取的模式的正确性和导出规则的准确性,使得决策支持系统产生错误的分析结果,将会误导决策,影响信息服务的质量。因此,在从数据库中挖掘知识之前必须对其进行一系列的预处理工作。对数据集进行改造方法的实现则是对数据集进行增减。它的基本思想是增加或者减少不平衡数据集样本的个数,从而改变数据集的分布来消除或减小数据的不平衡。主要有欠采样技术和过采样技术。欠采样技术将多数类样本进行适当删减,从而使数据集趋于平衡。常用的方法是随机欠采样技术,它通过随机选取的方式,将部分多数类样本删除从而减小其规模,其存在的缺点是伴随着多数类样本的删除其携带的某些重要信息也会随之丢失,从而造成分类器分类性能的下降。过采样技术则与欠采样技术相对,该方法通过增加少数类样本数量最终达到改善非平衡数据集的目的。最简单的一种方法是随机过采样。它通过随机选择的方式,将部分少数类样本复制添加到原始数据集中从而提高少数类样本的比例;这种方法的缺点是添加的少数类样本与原始数据集的部分样本重合,可能导致过拟合现象的发生。采用SMOTE算法进行不平衡数据集的处理,SMOTE算法在近邻数k的选择上没有可依据的标准,具有一定的盲目性。在SMOTE算法中,对近邻k的值没有太大限制,但当数据集中存在噪声时,合适的k值有可能不会使得某些新样本也成为噪声。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于改进SMOTE算法的非平衡数据集处理方法。本专利技术解决其技术问题是采取以下技术方案实现的:一种基于改进SMOTE算法的非平衡数据集处理方法,包括如下步骤:步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;通过轮盘赌的方式进行样本的选择,记为集合X;计算少数类样本的重心点;若设定向上采样倍率为m,则从集合X中随机抽取m个样本,近邻数k>m记为集合M,构建一个少数类小区域的重心点,记为Xc;步骤二,将少数类样本与集合M的每个样本分别进行随机线性插值,合成新的少数类样本并添加到数据集中;步骤三,判断新数据集的非平衡率,若还是过小则重复以上步骤否则获得新的数据集。本专利技术的优点和积极效果是:1、本基于改进SMOTE算法的非平衡数据集处理方法,采用减法聚类为样本进行划分样本数目,减法聚类方法是把是把所有的样本点作为聚类中心点的候选点,是一种快速而独立的近似聚类方法,计算量与样本点的数目成简单的线性关系,且与所考虑问题的维数无关。减法聚类克服了聚类中心具有主观性的缺点。2、本基于改进SMOTE算法的非平衡数据集处理方法,可以克服传统SMOTE算法处理噪声和边缘性样本的问题,相比于随机森林处理在处理非平衡数据集时的分类效果有显著的提高,该方法在少数类样本的邻近区域合成新样本,并将其作为新增少数类样本添加到原始数据集中。改进的SMOTE通过提高少数类样本在非平衡数据集中的比例,有效扩大了分类决策的区域。同时由于合成新样本与少数类样本的差异性,因此可以防止分类器出现过度拟合。改进的SMOTE算法从一定程度上克服了噪声数据点的干扰。3、本基于改进SMOTE算法的非平衡数据集处理方法,有效地避免了随机过采样技术在添加新样本时的局限性和盲目性。它利用线性插值的基本数学理论合成的新样本,这些新样本拥有了少数类样本的某些特性,在不会与原数据集中的样本重合的情况下增加了少数类样本的数量,扩大了分类决策的区域的同时又改善了数据集的非平衡性。附图说明图1是本专利技术的流程图;图2是本专利技术减法聚类确定聚类数目的流程图。具体实施方式以下结合附图对本专利技术的实施例做进一步详述:一种基于改进SMOTE算法的非平衡数据集处理方法,其创新之处在于:包括如下步骤:步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;通过轮盘赌的方式进行样本的选择,记为集合X;计算少数类样本的重心点;若设定向上采样倍率为m,则从集合X中随机抽取m个样本,近邻数k>m记为集合M,构建一个少数类小区域的重心点,记为Xc;步骤二,将少数类样本与集合M的每个样本分别进行随机线性插值,合成新的少数类样本并添加到数据集中;步骤三,判断新数据集的非平衡率,即少数类数目占全体样本数目的比例,若还是过小则重复以上步骤否则获得新的数据集。为了克服随机过采样技术导致的过拟合这一问题,本专利技术提出了新型过采样技术(SyntheticMinorityOver-samplingTechniqueSMOTE)来合成增加少数类样本。SMOTE算法的基本思想是通过建立应变量Y和自变量X的模型来预测确实变量Y中的缺失数据:本专利技术对SMOTE算法进行改进提出一种基于重心的SMOTE算法。基于重心的SMOTE算法的依据有以下两点理论:(1)根据物理学和几何学的原理,属于同一个类的样本应该有一个共同的重心,这个重心往往表征了这类样本的独有特性。(2)由样本重心与两个同类样本建立的区域应该是该类样本的共有区域,即在这个区域空间内的样本都应该是属于同一类。因此,基于以上两点理论,若在共同区域内合成新的样本,那么这些新的样本既跟原始样本有差异,但同时又可以保留住同类样本的一些固有特性;从而有效的克服了SMOTE算法在噪声样本中因为近邻的选择而合成噪声新样本的问题。又因为在建立共同区域时是随机选择两个同类样本和重心点的,因此同时选中两个边缘样本的概率大大降低,有效克服了由边缘性样本造成的模糊类别界限的问题。改进的SMOTE算法通过两次计算区域的重本文档来自技高网
...

【技术保护点】
1.一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:包括如下步骤:/n步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;/n步骤二,通过轮盘赌的方式进行样本的选择,记为少数类样本集合X:X={x

【技术特征摘要】
1.一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:包括如下步骤:
步骤一,首先使用聚类算法将样本集划分为特定数目的类簇,根据需要合成样本的数目,以及各类簇中所包含样本数量,得出各类簇所占权重以及需要合成的样本数目;
步骤二,通过轮盘赌的方式进行样本的选择,记为少数类样本集合X:X={x1,x2,...,xn};
步骤三,计算步骤二得出的少数类样本集合X的重心点;
步骤四,对于少数类样本集合X中的每一个样本x1,x2,...xn,以欧式距离为标准计算其到少数类样本集中所有样本的距离得到其k近邻,设定向上采样倍率为m,从集合X中随机抽取m组样本近邻数k>m记为集合构建一个少数类小区域的重心点,记为Xc;
步骤五,根据公式pi=Xi+rand(0,1)*(Xc-Xi)合成新的少数类样本pi,
将集合M中的样本与新合成样本pi分别进行随机线性插值,并判断少数类样本的个数是否小于设定的最低阀值,若不小于,则合成新的少数类样本pi并将该少数类样本pi添加到数据集中,形成新数据集;若小于,则回到步骤四;
步骤六,判断新数据集的非平衡率是否小于目标值,若小于则回到步骤四,否则得到最终的数据集。


2.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:所述使用聚类算法将样本集划分为特定数目的类簇的方法,包括如下步骤:
步骤(1):根据公式计算每个数据点的密度指标



式中ra是一个正数,定义了该点的邻域半径;
步骤(2):根据公式根据第k次选出的聚类中心,对每个数据点的密度指标进行修正



式中rb—一个正数,定义了一个密度指标函数减少的领域,选取密度指标最高的数据点xck+1作为新的聚类中心;
步骤(3):根据以下判断条件判断退出条件否成立



若不成立,则转到步骤(2),式中δ是事先给定的参数,且δ<1。


3.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法,其特征在于:计算步骤二得出的少数类样本集的重心点的方法为:
采用向量和欧氏距离的计算方式得到少数类样本的重心点:



根据公式可以计算出少数类样本的重心点Xg。


4.根...

【专利技术属性】
技术研发人员:李刚李野杨光董得龙孔祥玉宗淑敏孙虹卢静雅刘浩宇翟术然张兆杰许迪赵紫敬乔亚男吕伟嘉顾强何泽昊季浩白涛
申请(专利权)人:国网天津市电力公司电力科学研究院国网天津市电力公司国家电网有限公司天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1