【技术实现步骤摘要】
基于信息论改进的并行深度森林分类方法
[0001]本专利技术涉及大数据挖掘领域,尤其涉及基于信息论改进的并行深度森林分类方 法。
技术介绍
[0002]近年来,深度学习技术在充足的计算能力之下得到飞速的发展,它通过对大量 数据的训练学习人类的认知与行为模式,从而部分或完全地取代人类的重复机械的 劳动。如今,常见的深度学习算法都是基于深度神经网络的,作为一种监督式的学 习算法,深度神经网络能够在训练中通过逆向传播来反馈计算误差,具有自组织学 习的特点。虽然,深度神经网络因其强大的学习能力已被广泛的应用于各个领域, 但模型的训练却需要大量数据做支撑,并且其学习性能严重依赖于对大量超参数的 调整。
[0003]针对深度神经网络的现状,Zhou等人提出了一种新型的深度学习算法——深度 森林gcForest(Multi
‑
Grained Cascade Forest),它是一种基于决策树的多层分类器,主 要由多粒度扫描和级联森林两部分构成。多粒度扫描层用来提取原始数据的特征, 级联森林用来不断地精炼分类。每一层结构都是随机森林和完全随机森林的组合, 通过接收前一层处理过的特征信息训练该层模型,并将处理结果输入至下一层,以 此方式逐步提升模型的学习能力。深度森林的出现,为深度学习在深度神经网络之 外的方法打开了一扇门。
[0004]然而,随着信息技术和网络技术的发展使得大数据成为了研究热点,相较于传 统数据,大数据具有了4V特性——Volume(数量大)、Variety(种类多)、Velocit ...
【技术保护点】
【技术特征摘要】
1.一种基于信息论改进的并行深度森林分类方法,其特征在于,包括以下步骤:S1,获取待处理数据,对待处理数据采用混合降维策略,获得降维后的数据集;S2,采用改进的多粒度扫描策略对样本进行扫描,用于合并数据;S3,采用样本加权策略,根据评估结果选取样本进入下一层训练;S4,结合MapReduce框架并行构建级联森林,输出处理后的数据。2.根据权利要求1所述的基于信息论改进的并行深度森林分类方法,其特征在于,所述混合降维策略包括:S1
‑
1,结合MapReduce模型,并行计算特征信息增益值;S1
‑
2,结合条件互信息提出特征相关性函数;S1
‑
3,以凝聚层次聚类的方式聚类相似特征,并结合MapReduce框架与主成分分析算法并行的对每个簇中的特征进行降维。3.根据权利要求2所述的基于信息论改进的并行深度森林分类方法,其特征在于,所述S1
‑
1包括:S1
‑1‑
1,用Hadoop中的文件块策略,将原始数据集的特征空间划分为大小相同的数据块Block;S1
‑1‑
2,数据块Block作为输入数据,Mapper节点通过调用Map函数以键值对的形式统计出每个特征的信息增益,组合每个键值对得到特征信息增益集合A={<key1,value1>,<key2,value2>......<key
b
,value
b
>},其中,key为特征名称,value为对应特征的信息增益,<key1,value1>为1维的特征信息增益,<key2,value2>为2维的特征信息增益<key
b
,value
b
>为b维的特征信息增益;S1
‑1‑
3,根据特征对应的信息增益值对集合A中元素降序排列,移除集合A中排序较为靠后的特征,重新组合得到特征选择后的矩阵表示特征选择后的数据集DB
′
的m维特征空间中的n个样本,其中1≤m≤d;S1
‑1‑
4,将特征选择后的矩阵X
′
与标签向量Y按列合并后得到的特征选择后的数据集DB
′
。4.根据权利要求2所述的基于信息论改进的并行深度森林分类方法,其特征在于,所述S1
‑
2包括:特征相关性函数评估特征选择后的数据集DB
′
中特征的相似度;特征相关性函数其中,x
a
、x
b
是新的特征矩阵X
′
中任意两个不同特征,I(x
a
;Y|x
b
)表示在特征x
b
的条件下特征x
a
与标签向量Y之间的相关性,I(x
b
;Y|x
a
)表示在特征x
a
的条件下特征x
b
与标签向量Y之间的相关性,表示特征矩阵X
′
中所有特征两两之间的条件互信息之和。5.根据权利要求2所述的基于信息论改进的并行深度森林分类方法,其特征在于,所述S1
‑
3包括:S1
‑3‑
1,采用凝聚层次聚类的方式对特征聚类,将相似度较高的特征归为相同簇;将相似特征聚集在相同簇中,得到聚类后返回的簇集合C={C1,C2,......C
K
},其中C
K
表
示第K个簇;S1
‑3‑
2,结合MapReduce框架,并行对每个簇中的特征进行提取;所述S1
‑3‑
2包括:根据框架中Mapper节点的个数均匀分配簇,对于每个簇,Mapper节点通过调用Map函数利用PCA算法对簇中特征进行提取;并以键值对<key
′
,value
′
>的形式返回簇的特征提取结果,其中key
′
为簇的标号,value
′
为簇中对应特征提取后的结果,待所有Mapper节点执行完毕后,通过解析每个节点中的键值对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。