The invention requests to protect a mixed sampling method of neighborhood density unbalanced data based on Spark large data platform, which involves computer information acquisition and processing technology. The method stores data in RDD by Spark, normalizes the data, divides RDD into positive domain space, negative domain space and boundary domain space according to neighborhood density and three decision-making theory, then sampled data in boundary domain by SMOTE algorithm, sampled data in negative domain by mixed sampling algorithm, and finally merged data in three domains to obtain final data. Set. By dividing each data into different domains and dealing with the characteristics of different domains, a small number of classes of data can be added appropriately, while most classes of data can be reduced appropriately. Finally, MLLib algorithm library is invoked to evaluate the effect using machine learning classifier. This method can effectively alleviate the imbalance between classes of unbalanced data and improve the accuracy of the algorithm.
【技术实现步骤摘要】
基于Spark大数据平台的邻域密度不平衡数据混合采样方法
本专利技术属于计算机数据挖掘、计算机信息处理
技术介绍
“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。大数据作为云计算、物联网之后IT行业又一大颠覆性的技术革命。云计算主要为数据资产提供了保管、访问的场所和渠道,而数据才是真正有价值的资产。企业内部的经营交易信息、互联网世界中的商品物流信息,互联网世界中的人与人交互信息、位置信息等,其数量将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据核心议题,也是云计算内在的灵魂和必然的升级方向。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展,人们积累的数据量急剧增长,动辄以TB计,如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发 ...
【技术保护点】
1.一种基于Spark大数据平台的邻域密度不平衡数据混合采样方法,其特征在于,包括以下步骤:101、数据初始化步骤:获取数据并进行归一化处理,统一通过Spark的TextFile方法保存为RDD弹性分布式数据,再转化为LabelPoint对象的数据集,并将LabelPoint划分为训练集和测试集;102、三支决策划分步骤:使用Spark算子对RDD进行计算,获取数据集的距离矩阵和邻域半径,再计算邻域密度,结合三支决策理论,将RDD中的数据集划分至正域空间,负域空间和边界域空间;103、数据采样步骤:使用Spark计算每个边界域空间中少数类数据的K近邻集合,结合插值采样方法, ...
【技术特征摘要】
1.一种基于Spark大数据平台的邻域密度不平衡数据混合采样方法,其特征在于,包括以下步骤:101、数据初始化步骤:获取数据并进行归一化处理,统一通过Spark的TextFile方法保存为RDD弹性分布式数据,再转化为LabelPoint对象的数据集,并将LabelPoint划分为训练集和测试集;102、三支决策划分步骤:使用Spark算子对RDD进行计算,获取数据集的距离矩阵和邻域半径,再计算邻域密度,结合三支决策理论,将RDD中的数据集划分至正域空间,负域空间和边界域空间;103、数据采样步骤:使用Spark计算每个边界域空间中少数类数据的K近邻集合,结合插值采样方法,生成若干个少数类数据;在负域空间中,对其中的少数类数据采用过采样的方式处理,扩大邻域半径,区分有效少数类数据和噪音数据,并对有效少数类数据进行插值采样处理和删除噪音数据,对其中的多数类数据采用欠采样的方式处理,通过对多数类数据进行排序,确定轮询周期,保留一部分多数类数据;104、模型评估步骤:调用Spark的MLLib中的分类器算法进行评估,对比未采样和采样后的结果。2.根据权利要求1所述的基于Spark大数据平台的邻域密度不平衡数据混合采样方法,其特征在于,所述步骤101具体包括:将数据转化为SparkRDD对象,根据z-score标准化公式:其中x为初始的属性,μ为属性的均值,δ为属性的标准差,计算RDD对象的每个属性的均值和标准差,统一进行z-score归一化处理,并将其通过Spark的zipWithIndex算子转化为LabelPoint对象,并进行训练集和测试集的划分操作。3.根据权利要求2所述的基于Spark大数据平台的邻域密度不平衡数据混合采样方法,其特征在于,所述通过Spark算子转化为LabelPoint对象具体包括:采用zipWithIndex算子将RDD数据转化为LabelPoint对象。4.根据权利要求2所述的基于Spark大数据平台的邻域密度不平衡数据混合采样方法,其特征在于,所述训练集和测试集的划分过程包括:依据10折交叉验证,参考数据的类别分布,将LabelPoint划分成10份,每次选取一份作为测试集,其余9份作为训练集。5.根据权利要求2所述的基于Spark大数据平台的邻域密度不平衡数据混合采样方法,其特征在于,步骤102运用Spark计算数据的邻域半径,其步骤包括:通过Spark的groupBy算子对RDD进行分组计算,再将RDD通过sortBy算子对距离矩阵集合排序,通过mapPartitions算子计算每个分区数据的邻域半径,接着使用Filter算子,筛选距离小于邻域半径的数据点,最后通过Persist算子将得到的数据邻域集合RDD持久化至内存中;其中邻域半径的计算公式如下:R=min(Δ(si,d))+r×scope(Δ(si,d)),0≤r≤1(1)其中,min...
【专利技术属性】
技术研发人员:胡峰,余春霖,代劲,刘柯,于洪,张清华,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。