一种处理不平衡大数据的并行随机森林算法制造技术

技术编号：17655740 阅读：132 留言：0更新日期：2018-04-08 08:49

本发明专利技术公开了一种处理不平衡大数据的并行随机森林算法，属于不平衡大数据分类领域。为了解决基于MapReduce机制的并行随机森林算法对不平衡数据分类效率低的问题，本发明专利技术提出了融合分层自助抽样和敏感代价思想的并行随机森林方法（SBWMR_RF），首先对每个分块数据集的正类和负类分别进行自助抽样，保证随机性的同时增加正类的信息量，其次动态计算每个分块的代价敏感矩阵，将敏感代价用于基分类器构建的核心步骤。本发明专利技术从调整数据分布和调节算法两个方面对不平衡大数据分而治之，弱化了数据偏置的影响，提高了对不平衡大数据的分类准确率，在极不平衡环境下优势明显。

全部详细技术资料下载

【技术实现步骤摘要】
一种处理不平衡大数据的并行随机森林算法
本专利技术涉及一种处理不平衡大数据的并行随机森林算法。属于机器学习中的分类技术，涉及不平衡大数据分类方法。
技术介绍
处理大数据的技术重点是实现快速、可伸缩的并行化分析处理。Hardtop作为主流的框架，利用了“分而治之”的朴素思想为大数据处理整合了分布式文件系统HDFS、分布式计算框架MapReduce、非关系数据库HBASE等，能很好的存储、管理、挖掘“大数据”的任务。大数据和大数据分析处理技术相互促进。基于MapReduce的并行随机森林算法MapReduceRandomForest，以下简称MR_RF，作为集成分类的一种，因为在处理分类和回归问题上简单高效，又兼具良好的并行性，给源源不断的大数据分类处理提供了新思路。值得注意的是，在大数据环境下虽然我们有大量样本，但其中对我们有用的观测样本往往很有限，而这小部分数据又“物以稀为贵”，表现出数量和价值上的不平衡性。传统的分类算法都以均衡样本为前提，在面对不平衡数据集分类任务时往往泛化性能不高。目前，集成分类处理不平衡数据有2个层面的改进。从数据层面出发的改进，主要是获得大致平衡数据子集如OverBagging、UnderBagging、easyEnsemble等；从算法层面出发的改进，主要体现在重构训练集的同时，引入敏感代价因子，设计敏感代价基分类器。MR_RF在处理不平衡数据分类问题时，由于正类样本密度过低且基分类器又建立在每个分块的抽样数据上，使得数据偏置影响加深；其次MR_RF在构建树时采用全局最小gini值作为选择分裂点的标准，易忽略正类，有将正类分为负...
一种处理不平衡大数据的并行随机森林算法

【技术保护点】
一种处理不平衡大数据的并行随机森林算法(SBWMR_RF算法)，其特征在于：在分块数据上，动态计算分块数据的代价敏感矩阵；对每个分块数据进行分层自助抽样，得到的自助抽样子集用于敏感代价CART树的构建，过程中将敏感代价应用到最优分割点选择，叶子节点类别计算，叶子节点投票权重计算三个环节；多个基分类器并行构建，组合成森林，对源源不断的数据进行加权分类。

【技术特征摘要】
1.一种处理不平衡大数据的并行随机森林算法(SBWMR_RF算法)，其特征在于：在分块数据上，动态计算分块数据的代价敏感矩阵；对每个分块数据进行分层自助抽样，得到的自助抽样子集用于敏感代价CART树的构建，过程中将敏感代价应用到最优分割点选择，叶子节点类别计算，叶子节点投票权重计算三个环节；多个基分类器并行构建，组合成森林，对源源不断的数据进行加权分类。2.根据权利要求1所述的一种处理不平衡大数据的并行随机森林方法，其特征在于：利用Hadoop平台，将数据按照特定大小分块，动态计算每个分块数据的代价敏感矩阵，本发明对正类样本赋予较高的代价，负类样本赋予较小的代价，记C(+,-)为正类被误分的代价，则负类被误分代价为C(-,+)，满足，动态计算每一个分块的代价敏感矩阵设置，其中k为分块的计数变量。3.根据权利要求1所述的一种处理不平衡大数据的并行随机森林方法，利用分层自助抽样得到抽样子集，其特征在于：在不平衡数据集的二元分类中，对于正类，...

【专利技术属性】
技术研发人员：秦静，
申请(专利权)人：江苏蓝深远望科技股份有限公司，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人