基于信息论改进的并行深度森林分类方法技术

技术编号:28146422 阅读:16 留言:0更新日期:2021-04-21 19:31
本发明专利技术提出了一种基于信息论改进的并行深度森林分类方法。首先,该算法基于信息论设计了一种混合降维策略,获得降维后的数据集,有效减少了冗余及不相关特征数;其次,提出了一种改进的多粒度扫描策略对样本进行扫描,保证每个特征在扫描后以同频率出现在数据子集中,避免了因多粒度扫描不平衡的影响;最后,结合MapReduce框架,对深度森林模型每层级联结构中的随机森林进行并行化训练,同时提出了一种样本加权策略,根据级联中随机森林对样本的评估,选取评估结果较差的样本进入下一层训练,减少了层级中样本的数量,提高了算法的并行效率。本发明专利技术原理简、易实现,在运行效率和聚类精确度上都有显著提高,该方法还能在生物学,医学,天文地理学上提供巨大的帮助。天文地理学上提供巨大的帮助。天文地理学上提供巨大的帮助。

【技术实现步骤摘要】
基于信息论改进的并行深度森林分类方法


[0001]本专利技术涉及大数据挖掘领域,尤其涉及基于信息论改进的并行深度森林分类方 法。

技术介绍

[0002]近年来,深度学习技术在充足的计算能力之下得到飞速的发展,它通过对大量 数据的训练学习人类的认知与行为模式,从而部分或完全地取代人类的重复机械的 劳动。如今,常见的深度学习算法都是基于深度神经网络的,作为一种监督式的学 习算法,深度神经网络能够在训练中通过逆向传播来反馈计算误差,具有自组织学 习的特点。虽然,深度神经网络因其强大的学习能力已被广泛的应用于各个领域, 但模型的训练却需要大量数据做支撑,并且其学习性能严重依赖于对大量超参数的 调整。
[0003]针对深度神经网络的现状,Zhou等人提出了一种新型的深度学习算法——深度 森林gcForest(Multi

Grained Cascade Forest),它是一种基于决策树的多层分类器,主 要由多粒度扫描和级联森林两部分构成。多粒度扫描层用来提取原始数据的特征, 级联森林用来不断地精炼分类。每一层结构都是随机森林和完全随机森林的组合, 通过接收前一层处理过的特征信息训练该层模型,并将处理结果输入至下一层,以 此方式逐步提升模型的学习能力。深度森林的出现,为深度学习在深度神经网络之 外的方法打开了一扇门。
[0004]然而,随着信息技术和网络技术的发展使得大数据成为了研究热点,相较于传 统数据,大数据具有了4V特性——Volume(数量大)、Variety(种类多)、Velocity (速度快)、Value(价值密度低),这使得深度森林算法在处理大数据时所需运行时 间较长、内存容量较多,且通过提升计算机硬件水平来满足人们对大数据分析与处 理的需求,显得尤为困难。此时并行化的计算思想显得十分重要,通过改进深度森 林算法,并与分布式计算模型相结合成为当前研究的主要方向。
[0005]面对大数据规模庞大且计算复杂等问题,Google开发的MapReduce并行编程模 型由于其操作简单、自动容错、扩展性强等优点深受广大学者和企业的青睐,同时, 以Hadoop、Spark、Ray为代表的分布式计算架构也受到了越来越多的关注。目前基 于并行化计算模型的深度森林算法已成功应用到大数据的分析与处理领域中。其中, Zhu等人提出了一种基于Ray的并行化深度森林算法ForestLayer,该算法基于细粒 度子森林优化了任务并行算法,提高了计算并发性,降低了通信开销;同时,设计 了一种统一任务分割机制,保证了训练结果与原方法的一致性,降低了总训练时间 成本;此外,ForestLayer更进一步提出了延迟扫描、预池、部分传输三种系统级技 术用于优化算法性能。从实验结果可以看出,ForestLayer在运行时间以及准确度上 都要优于传统的深度森林算法。但是该算法依然存在以下三点不足:算法没有考虑 到在大数据集中冗余与不相关特征过多以及多粒度扫描不平衡的问题,且算法的并 行化效率可以进一步提升。

技术实现思路

[0006]本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于 信息论改进的并行深度森林分类方法。
[0007]为了实现本专利技术的上述目的,本专利技术提供了一种基于信息论改进的并行深度森 林分类方法,包括以下步骤:
[0008]S1,获取待处理数据,对待处理数据采用混合降维策略,获得降维后的数据集;
[0009]S2,采用改进的多粒度扫描策略对样本进行扫描,用于合并数据;
[0010]S3,采用样本加权策略,根据评估结果选取样本进入下一层训练;
[0011]S4,结合MapReduce框架并行构建级联森林,输出处理后的数据。
[0012]优选的,所述混合降维策略包括:
[0013]S1

1,结合MapReduce模型,并行计算特征信息增益值;
[0014]S1

2,结合条件互信息提出特征相关性函数;
[0015]S1

3,以凝聚层次聚类的方式聚类相似特征,并结合MapReduce框架与主成分 分析算法并行的对每个簇中的特征进行降维。
[0016]优选的,所述S1

1包括:
[0017]S1
‑1‑
1,用Hadoop中的文件块策略,将原始数据集的特征空间划分为大小相同 的数据块Block;
[0018]S1
‑1‑
2,数据块Block作为输入数据,Mapper节点通过调用Map函数以键值对 的形式统计出每个特征的信息增益,组合每个键值对得到特征信息增益集合 A={<key1,value1>,<key2,value2>......<key
b
,value
b
>},其中,key为特征名称,value为对应 特征的信息增益,<key1,value1>为1维的特征信息增益,<key2,value2>为2维的特征 信息增益<key
b
,value
b
>为b维的特征信息增益;
[0019]S1
‑1‑
3,根据特征对应的信息增益值对集合A中元素降序排列,移除集合A中 排序较为靠后的特征,重新组合得到特征选择后的矩阵表示特征 选择后的数据集DB

的m维特征空间中的n个样本,其中1≤m≤d;
[0020]S1
‑1‑
4,将特征选择后的矩阵X

与标签向量Y按列合并后得到的特征选择后的 数据集DB


[0021]优选的,所述S1

2包括:特征相关性函数评估特征选择后的数据集DB

中特征 的相似度;
[0022]特征相关性函数
[0023]其中,x
a
、x
b
是新的特征矩阵X

中任意两个不同特征,I(x
a
;Y|x
b
)表示在特征x
b
的 条件下特征x
a
与标签向量Y之间的相关性,I(x
b
;Y|x
a
)表示在特征x
a
的条件下特征x
b
与 标签向量Y之间的相关性,表示特征矩阵X

中所有特征两两之间的条 件互信息之和。
[0024]优选的,所述S1

3包括:
[0025]S1
‑3‑
1,采用凝聚层次聚类的方式对特征聚类,将相似度较高的特征归为相同簇;
[0026]将相似特征聚集在相同簇中,得到聚类后返回的簇集合C={C1,C2,......C
K
},其中C
K
表示第K个簇;
[0027]S1
‑3‑
2,结合MapReduce框架,并行对每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于信息论改进的并行深度森林分类方法,其特征在于,包括以下步骤:S1,获取待处理数据,对待处理数据采用混合降维策略,获得降维后的数据集;S2,采用改进的多粒度扫描策略对样本进行扫描,用于合并数据;S3,采用样本加权策略,根据评估结果选取样本进入下一层训练;S4,结合MapReduce框架并行构建级联森林,输出处理后的数据。2.根据权利要求1所述的基于信息论改进的并行深度森林分类方法,其特征在于,所述混合降维策略包括:S1

1,结合MapReduce模型,并行计算特征信息增益值;S1

2,结合条件互信息提出特征相关性函数;S1

3,以凝聚层次聚类的方式聚类相似特征,并结合MapReduce框架与主成分分析算法并行的对每个簇中的特征进行降维。3.根据权利要求2所述的基于信息论改进的并行深度森林分类方法,其特征在于,所述S1

1包括:S1
‑1‑
1,用Hadoop中的文件块策略,将原始数据集的特征空间划分为大小相同的数据块Block;S1
‑1‑
2,数据块Block作为输入数据,Mapper节点通过调用Map函数以键值对的形式统计出每个特征的信息增益,组合每个键值对得到特征信息增益集合A={<key1,value1>,<key2,value2>......<key
b
,value
b
>},其中,key为特征名称,value为对应特征的信息增益,<key1,value1>为1维的特征信息增益,<key2,value2>为2维的特征信息增益<key
b
,value
b
>为b维的特征信息增益;S1
‑1‑
3,根据特征对应的信息增益值对集合A中元素降序排列,移除集合A中排序较为靠后的特征,重新组合得到特征选择后的矩阵表示特征选择后的数据集DB

的m维特征空间中的n个样本,其中1≤m≤d;S1
‑1‑
4,将特征选择后的矩阵X

与标签向量Y按列合并后得到的特征选择后的数据集DB

。4.根据权利要求2所述的基于信息论改进的并行深度森林分类方法,其特征在于,所述S1

2包括:特征相关性函数评估特征选择后的数据集DB

中特征的相似度;特征相关性函数其中,x
a
、x
b
是新的特征矩阵X

中任意两个不同特征,I(x
a
;Y|x
b
)表示在特征x
b
的条件下特征x
a
与标签向量Y之间的相关性,I(x
b
;Y|x
a
)表示在特征x
a
的条件下特征x
b
与标签向量Y之间的相关性,表示特征矩阵X

中所有特征两两之间的条件互信息之和。5.根据权利要求2所述的基于信息论改进的并行深度森林分类方法,其特征在于,所述S1

3包括:S1
‑3‑
1,采用凝聚层次聚类的方式对特征聚类,将相似度较高的特征归为相同簇;将相似特征聚集在相同簇中,得到聚类后返回的簇集合C={C1,C2,......C
K
},其中C
K

示第K个簇;S1
‑3‑
2,结合MapReduce框架,并行对每个簇中的特征进行提取;所述S1
‑3‑
2包括:根据框架中Mapper节点的个数均匀分配簇,对于每个簇,Mapper节点通过调用Map函数利用PCA算法对簇中特征进行提取;并以键值对<key

,value

>的形式返回簇的特征提取结果,其中key

为簇的标号,value

为簇中对应特征提取后的结果,待所有Mapper节点执行完毕后,通过解析每个节点中的键值对...

【专利技术属性】
技术研发人员:毛伊敏耿俊豪
申请(专利权)人:江西理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1