一种基于改进SMOTE算法的非平衡数据集处理方法及系统技术方案

技术编号：25948873 阅读：25 留言：0更新日期：2020-10-17 03:40

本发明专利技术涉及一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：首先计算少数类样本的重心点，其次构建一个少数类小区域的重心点，然后将少数类样本与集合M的每个样本分别进行随机线性插值，合成新的少数类样本并添加到数据集中；最后判断新数据集的非平衡率，若还是过小则重复以上步骤否则停止。改进后的SMOTE算法可以克服传统SMOTE算法处理噪声和边缘性样本的问题，相比于随机森林处理在处理非平衡数据集时的分类效果有显著的提高。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进SMOTE算法的非平衡数据集处理方法及系统
本专利技术属于电力数据处理领域，涉及一种非平衡数据集处理方法，特别是一种基于改进SMOTE算法的非平衡数据集处理方法。
技术介绍
近年来，随着信息产业的快速发展，人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息，如何对其进行更高层次的分析，以便更好地利用这些数据，变得越来越重要。传统的数据管理方法可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中潜在的、有用的关系和规则。为了挖掘数据背后隐藏的知识，解决“数据爆炸但知识贫乏”问题，人们努力寻求各种新方法和技术，以便使数据能够转化成有用的信息和知识。数据挖掘在这种背景下应运而生了。数据挖掘领域的研究日趋成熟，其中许多研究把方法和模型建立在理想的数据而不是现实的数据集上。但现实中的数据是错综复杂的，总体而言，他们不可避免的存在冗余数据、缺失数据、不确定数据和不一致数据等诸多情况，这样的数据简称为“脏数据”，它们成为数据挖掘的一大障碍。要在基于历史的、现存的数据基础上去为将来的企业发展作决策或预测时，数据的质量问题就变得很关键。根据“垃圾进，垃圾出”原理，错误的数据会导致昂贵的操作费用和漫长的响应时间，影响从数据集中抽取的模式的正确性和导出规则的准确性，使得决策支持系统产生错误的分析结果，将会误导决策，影响信息服务的质量。因此，在从数据库中挖掘知识之前必须对其进行一系列的预处理工作。对数据集进行改造方法的实现则是对数据集进行增减。它的基本思想是增加或者减少不平衡数据集样本的个数，从而...

【技术保护点】
1.一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：包括如下步骤：/n步骤一，首先使用聚类算法将样本集划分为特定数目的类簇，根据需要合成样本的数目，以及各类簇中所包含样本数量，得出各类簇所占权重以及需要合成的样本数目；/n步骤二，通过轮盘赌的方式进行样本的选择，记为少数类样本集合X:X＝{x

【技术特征摘要】
1.一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：包括如下步骤：
步骤一，首先使用聚类算法将样本集划分为特定数目的类簇，根据需要合成样本的数目，以及各类簇中所包含样本数量，得出各类簇所占权重以及需要合成的样本数目；
步骤二，通过轮盘赌的方式进行样本的选择，记为少数类样本集合X:X＝{x1,x2,...,xn}；
步骤三，计算步骤二得出的少数类样本集合X的重心点；
步骤四，对于少数类样本集合X中的每一个样本x1,x2,...xn，以欧式距离为标准计算其到少数类样本集中所有样本的距离得到其k近邻，设定向上采样倍率为m，从集合X中随机抽取m组样本近邻数k>m记为集合构建一个少数类小区域的重心点，记为Xc；
步骤五，根据公式pi＝Xi+rand(0,1)*(Xc-Xi)合成新的少数类样本pi，
将集合M中的样本与新合成样本pi分别进行随机线性插值，并判断少数类样本的个数是否小于设定的最低阀值，若不小于，则合成新的少数类样本pi并将该少数类样本pi添加到数据集中，形成新数据集；若小于，则回到步骤四；
步骤六，判断新数据集的非平衡率是否小于目标值，若小于则回到步骤四，否则得到最终的数据集。

2.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：所述使用聚类算法将样本集划分为特定数目的类簇的方法,包括如下步骤：
步骤(1)：根据公式计算每个数据点的密度指标

式中ra是一个正数，定义了该点的邻域半径；
步骤(2)：根据公式根据第k次选出的聚类中心，对每个数据点的密度指标进行修正

式中rb—一个正数，定义了一个密度指标函数减少的领域，选取密度指标最高的数据点xck+1作为新的聚类中心；
步骤(3)：根据以下判断条件判断退出条件否成立

若不成立，则转到步骤(2)，式中δ是事先给定的参数，且δ＜1。

3.根据权利要求1所述的一种基于改进SMOTE算法的非平衡数据集处理方法，其特征在于：计算步骤二得出的少数类样本集的重心点的方法为：
采用向量和欧氏距离的计算方式得到少数类样本的重心点：

根据公式可以计算出少数类样本的重心点Xg。

4.根...

【专利技术属性】
技术研发人员：李刚，李野，杨光，董得龙，孔祥玉，宗淑敏，孙虹，卢静雅，刘浩宇，翟术然，张兆杰，许迪，赵紫敬，乔亚男，吕伟嘉，顾强，何泽昊，季浩，白涛，
申请(专利权)人：国网天津市电力公司电力科学研究院，国网天津市电力公司，国家电网有限公司，天津大学，
类型：发明
国别省市：天津;12

全部详细技术资料下载我是这个专利的主人