基于信息论改进的并行深度森林分类方法技术

技术编号：28146422 阅读：28 留言：0更新日期：2021-04-21 19:31

本发明专利技术提出了一种基于信息论改进的并行深度森林分类方法。首先，该算法基于信息论设计了一种混合降维策略，获得降维后的数据集，有效减少了冗余及不相关特征数；其次，提出了一种改进的多粒度扫描策略对样本进行扫描，保证每个特征在扫描后以同频率出现在数据子集中，避免了因多粒度扫描不平衡的影响；最后，结合MapReduce框架，对深度森林模型每层级联结构中的随机森林进行并行化训练，同时提出了一种样本加权策略，根据级联中随机森林对样本的评估，选取评估结果较差的样本进入下一层训练，减少了层级中样本的数量，提高了算法的并行效率。本发明专利技术原理简、易实现，在运行效率和聚类精确度上都有显著提高，该方法还能在生物学，医学，天文地理学上提供巨大的帮助。天文地理学上提供巨大的帮助。天文地理学上提供巨大的帮助。

全部详细技术资料下载

【技术实现步骤摘要】
基于信息论改进的并行深度森林分类方法

[0001]本专利技术涉及大数据挖掘领域，尤其涉及基于信息论改进的并行深度森林分类方法。

技术介绍

[0002]近年来，深度学习技术在充足的计算能力之下得到飞速的发展，它通过对大量数据的训练学习人类的认知与行为模式，从而部分或完全地取代人类的重复机械的劳动。如今，常见的深度学习算法都是基于深度神经网络的，作为一种监督式的学习算法，深度神经网络能够在训练中通过逆向传播来反馈计算误差，具有自组织学习的特点。虽然，深度神经网络因其强大的学习能力已被广泛的应用于各个领域，但模型的训练却需要大量数据做支撑，并且其学习性能严重依赖于对大量超参数的调整。
[0003]针对深度神经网络的现状，Zhou等人提出了一种新型的深度学习算法——深度森林gcForest(Multi
‑
Grained Cascade Forest)，它是一种基于决策树的多层分类器，主要由多粒度扫描和级联森林两部分构成。多粒度扫描层用来提取原始数据的特征，级联森林用来不断地精炼分类。每一...

【技术保护点】

【技术特征摘要】
1.一种基于信息论改进的并行深度森林分类方法，其特征在于，包括以下步骤：S1，获取待处理数据，对待处理数据采用混合降维策略，获得降维后的数据集；S2，采用改进的多粒度扫描策略对样本进行扫描，用于合并数据；S3，采用样本加权策略，根据评估结果选取样本进入下一层训练；S4，结合MapReduce框架并行构建级联森林，输出处理后的数据。2.根据权利要求1所述的基于信息论改进的并行深度森林分类方法，其特征在于，所述混合降维策略包括：S1
‑
1，结合MapReduce模型，并行计算特征信息增益值；S1
‑
2，结合条件互信息提出特征相关性函数；S1
‑
3，以凝聚层次聚类的方式聚类相似特征，并结合MapReduce框架与主成分分析算法并行的对每个簇中的特征进行降维。3.根据权利要求2所述的基于信息论改进的并行深度森林分类方法，其特征在于，所述S1
‑
1包括：S1
‑1‑
1，用Hadoop中的文件块策略，将原始数据集的特征空间划分为大小相同的数据块Block；S1
‑1‑
2，数据块Block作为输入数据，Mapper节点通过调用Map函数以键值对的形式统计出每个特征的信息增益，组合每个键值对得到特征信息增益集合A＝{＜key1,value1＞,＜key2,value2＞......＜key
b
,value
b
＞}，其中，key为特征名称，value为对应特征的信息增益，＜key1,value1＞为1维的特征信息增益，＜key2,value2＞为2维的特征信息增益＜key
b
,value
b
＞为b维的特征信息增益；S1
‑1‑
3，根据特征对应的信息增益值对集合A中元素降序排列，移除集合A中排序较为靠后的特征，重新组合得到特征选择后的矩阵表示特征选择后的数据集DB
′
的m维特征空间中的n个样本，其中1≤m≤d；S1
‑1‑
4，将特征选择后的矩阵X
′
与标签向量Y按列合并后得到的特征选择后的数据集DB
′
。4.根据权利要求2所述的基于信息论改进的并行深度森林分类方法，其特征在于，所述S1
‑
2包括：特征相关性函数评估特征选择后的数据集DB
′
中特征的相似度；特征相关性函数其中，x
a
、x
b
是新的特征矩阵X
′
中任意两个不同特征，I(x
a
；Y|x
b
)表示在特征x
b
的条件下特征x
a
与标签向量Y之间的相关性，I(x
b
；Y|x
a
)表示在特征x
a
的条件下特征x
b
与标签向量Y之间的相关性，表示特征矩阵X
′
中所有特征两两之间的条件互信息之和。5.根据权利要求2所述的基于信息论改进的并行深度森林分类方法，其特征在于，所述S1
‑
3包括：S1
‑3‑
1，采用凝聚层次聚类的方式对特征聚类，将相似度较高的特征归为相同簇；将相似特征聚集在相同簇中，得到聚类后返回的簇集合C＝{C1,C2,......C
K
}，其中C
K
表
示第K个簇；S1
‑3‑
2，结合MapReduce框架，并行对每个簇中的特征进行提取；所述S1
‑3‑
2包括：根据框架中Mapper节点的个数均匀分配簇，对于每个簇，Mapper节点通过调用Map函数利用PCA算法对簇中特征进行提取；并以键值对＜key
′
,value
′
＞的形式返回簇的特征提取结果，其中key
′
为簇的标号，value
′
为簇中对应特征提取后的结果，待所有Mapper节点执行完毕后，通过解析每个节点中的键值对...

【专利技术属性】
技术研发人员：毛伊敏，耿俊豪，
申请(专利权)人：江西理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人