一种处理不平衡大数据的并行随机森林算法制造技术

技术编号:17655740 阅读:132 留言:0更新日期:2018-04-08 08:49
本发明专利技术公开了一种处理不平衡大数据的并行随机森林算法,属于不平衡大数据分类领域。为了解决基于MapReduce机制的并行随机森林算法对不平衡数据分类效率低的问题,本发明专利技术提出了融合分层自助抽样和敏感代价思想的并行随机森林方法(SBWMR_RF),首先对每个分块数据集的正类和负类分别进行自助抽样,保证随机性的同时增加正类的信息量,其次动态计算每个分块的代价敏感矩阵,将敏感代价用于基分类器构建的核心步骤。本发明专利技术从调整数据分布和调节算法两个方面对不平衡大数据分而治之,弱化了数据偏置的影响,提高了对不平衡大数据的分类准确率,在极不平衡环境下优势明显。

【技术实现步骤摘要】
一种处理不平衡大数据的并行随机森林算法
本专利技术涉及一种处理不平衡大数据的并行随机森林算法。属于机器学习中的分类技术,涉及不平衡大数据分类方法。
技术介绍
处理大数据的技术重点是实现快速、可伸缩的并行化分析处理。Hardtop作为主流的框架,利用了“分而治之”的朴素思想为大数据处理整合了分布式文件系统HDFS、分布式计算框架MapReduce、非关系数据库HBASE等,能很好的存储、管理、挖掘“大数据”的任务。大数据和大数据分析处理技术相互促进。基于MapReduce的并行随机森林算法MapReduceRandomForest,以下简称MR_RF,作为集成分类的一种,因为在处理分类和回归问题上简单高效,又兼具良好的并行性,给源源不断的大数据分类处理提供了新思路。值得注意的是,在大数据环境下虽然我们有大量样本,但其中对我们有用的观测样本往往很有限,而这小部分数据又“物以稀为贵”,表现出数量和价值上的不平衡性。传统的分类算法都以均衡样本为前提,在面对不平衡数据集分类任务时往往泛化性能不高。目前,集成分类处理不平衡数据有2个层面的改进。从数据层面出发的改进,主要是获得大致平衡数据子集如OverBagging、UnderBagging、easyEnsemble等;从算法层面出发的改进,主要体现在重构训练集的同时,引入敏感代价因子,设计敏感代价基分类器。MR_RF在处理不平衡数据分类问题时,由于正类样本密度过低且基分类器又建立在每个分块的抽样数据上,使得数据偏置影响加深;其次MR_RF在构建树时采用全局最小gini值作为选择分裂点的标准,易忽略正类,有将正类分为负类的趋势,分类效率降低。因此本专利技术提出一个结合分层自助抽样和敏感代价的并行随机森林算法,以下简称SBWMR_RF算法。
技术实现思路
本专利技术SBWMR_RF算法,意在设计出一种符合实际大数据分类应用环境的并行随机森林算法,为了有效提高对常见的不平衡大数据分类问题的效率,本专利技术提出融合分层自助抽样方法和敏感代价思想的并行随机森林算法,结合MapReduce,从调整数据分布和调节算法两个方面对不平衡大数据分而治之。首先对每个分块数据集的正类和负类分别进行自助抽样,保证随机性的同时增加正类的信息量。其次动态计算每个分块的代价敏感矩阵,将敏感代价用于基分类器构建的核心步骤,如计算最优分割点,叶子节点所属类别,预测时加权投票等,并行构建敏感代价的决策树,最后把模型用于大数据分类。1.分层自助抽样在不平衡的数据环境下,有很大的可能性自助抽样后的数据全是来自负类,所以本专利技术利用分层自助抽样,对正类和负类每一层分别有放回的随机抽样,抽样次数和各层样本大小相同,各层的自助抽样集组合成最后的抽样集,确保有一定的正类出现在抽样集中。2.敏感代价方法除了增加对正类的抽样概率,本专利技术还修改算法在数据集上的偏置,改善由于全局搜索策略而导致正类被误分的问题。所以本专利技术引入敏感代价学习方法。(1)重构训练集。不改变已有算法,但根据样本的不同错分代价给每一个样本赋一个权值,接着按不同权重对原始样本集进行重新统计。(2)引入敏感代价因子设计出敏感代价的决策树算法。通常对小样本赋予较高的代价,大样本赋予较小的代价,期望以此来平衡样本之间的数目差异。其关键步骤是获取代价敏感矩阵。记正类被误分代价为C(+,-),相对的负类被误分代价C(-,+),满足。本专利技术采用动态的分块代价敏感矩阵而代替固定的全局代价敏感矩阵,考虑分块对数据偏置加深的影响,从而达到理论上的平衡效果。动态计算每一个分块的代价敏感矩阵设置,见公式(1)。(1)将每个类别的不同误分代价引入到CART树的构建中。1)在构建计算树的计算最佳分裂点时加入敏感代价信息,见公式(2)。(2)表示在分割点A的条件下,集合的纯度。D1和D2是按照是否是A值将集合D分成的两部分。其中,,Dk是D中属于第k类的样本子集,Ck是第k类的误分代价,K是类的个数。2)构建的CART树是无限伸展的,直到分支上的数据少于一定数量或者数据全属于一类数据就停止生长。此时计算分支末端叶子节点所属哪个类别I,见公式(3)。(3)表示叶子节点所属类别。3)计算叶子节点的权值w,见公式(4),用于分类预测阶段的加权投票。(4)表示实例的代价和与实例个数总和的比值。附图说明附图1:SBWMR_RF算法并行构建的流程图。附图2:SBWMR_RF算法并行分类的流程图。具体实施方案本专利技术设计出的一种大数据环境下有效处理不平衡数据分类问题的并行随机森林算法。具体过程分为模型构建和分类预测两个部分,具体将结合图1,图2流程图说明如下:SBWMR_RF算法在模型构建时,多个分块并行处理。首先利用Hardtop平台,将数据分块并发送到不同的数据节点上,然后计算每个分块的代价矩阵,见公式(1),C(-,+)用动态的局部不平衡指数,避免分块加深不平衡性。数据键值对<key,value>做为输入,key为编码一个实例的二进制流,value是每个实例的具体数据。对各个分块数据进行分层自助抽样,然后组成最后的抽样数据集{sd1,sd2,…sdk,},构建代价敏感CART树。输出键值对<key’,value’>,key’由树id和分块id组成,value’是一个基分类器。汇总各棵树形成SBWMR_RF算法模型WH{wh1,wh2,…whk,}。将SBWMR_RF算法用于分类预测时,首先对测试集分成几个互相独立的子集并分发到不同的数据节点。每个分块输入数据键值对<key,value>,key为编码实例的二进制流,value是实例的具体数据。遍历所有树,采用加权投票的方式,见公式(4),取得最终的预测结果。输出键值对<key’,value’>,key’是实例的实际类别,value’是一个实例的预测类别。多个分块并行处理,将结果汇聚。计算GMean指标值。算法模型在搭建的Hadoop平台为4台集群节点上实验,集群由1000M宽带互联。配置均为CPU:DeonL5639的、内存:4G、缓存:12M、硬盘:200G、Hadoop版本:Hadoop2.0.0CDH4.5、OS版本:Centos7.0、Mahout版本:Mahout0.7CDH4.5。选取的数据集为kddCup1999和theRecordLinkageComparisonPatterns(RLCP)。同时本专利技术,将kddCup1999这个多分类数据集按照不同类别形成不平衡二元分类大数据集,从上至下数据量依次增大具体信息见表1。表1不平衡数据集其中NIns表示实例的数量、NAttr表示属性的数量、Class(n:p)表示负类与正类的数量、IR是负类与正类数量的比值,其表示全局不平衡指数。对于不平衡数据集分类效果的评价,精度不适用,因为正类比例不足1%的情况下,即使正类全被分为负类,精度依旧可以达到99%,但这样的分类器是没有实际意义的。为此本专利技术采用常用的G-mean(简称GM)标准作为评价指标。由混淆矩阵而来,具体见表2。其中,TP表示正类样本判为正类的数目、TN表示负类样本判为负类的数目、FN与FP分别表示判断错误实际为正类本文档来自技高网
...
一种处理不平衡大数据的并行随机森林算法

【技术保护点】
一种处理不平衡大数据的并行随机森林算法(SBWMR_RF算法),其特征在于:在分块数据上,动态计算分块数据的代价敏感矩阵;对每个分块数据进行分层自助抽样,得到的自助抽样子集用于敏感代价CART树的构建,过程中将敏感代价应用到最优分割点选择,叶子节点类别计算,叶子节点投票权重计算三个环节;多个基分类器并行构建,组合成森林,对源源不断的数据进行加权分类。

【技术特征摘要】
1.一种处理不平衡大数据的并行随机森林算法(SBWMR_RF算法),其特征在于:在分块数据上,动态计算分块数据的代价敏感矩阵;对每个分块数据进行分层自助抽样,得到的自助抽样子集用于敏感代价CART树的构建,过程中将敏感代价应用到最优分割点选择,叶子节点类别计算,叶子节点投票权重计算三个环节;多个基分类器并行构建,组合成森林,对源源不断的数据进行加权分类。2.根据权利要求1所述的一种处理不平衡大数据的并行随机森林方法,其特征在于:利用Hadoop平台,将数据按照特定大小分块,动态计算每个分块数据的代价敏感矩阵,本发明对正类样本赋予较高的代价,负类样本赋予较小的代价,记C(+,-)为正类被误分的代价,则负类被误分代价为C(-,+),满足,动态计算每一个分块的代价敏感矩阵设置,其中k为分块的计数变量。3.根据权利要求1所述的一种处理不平衡大数据的并行随机森林方法,利用分层自助抽样得到抽样子集,其特征在于:在不平衡数据集的二元分类中,对于正类,...

【专利技术属性】
技术研发人员:秦静
申请(专利权)人:江苏蓝深远望科技股份有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1