【技术实现步骤摘要】
基于增益率与堆叠自编码器的并行随机森林优化方法
[0001]本专利技术涉及属于大数据挖掘领域,特别是涉及一种基于增益率与堆叠自编码器的并行随机森林优化方法。
技术介绍
[0002]随机森林算法是一种以决策树为基分类器的集成学习方法,通过对数据集bootstrap抽样得到的样本进行决策树建模后,构建一个包含多棵不相关决策树的分类器,并统计所有树的分类结果来得到最终分类结果。相比于其他分类算法而言,具有分类效果好,鲁棒性强以及运算速度快等特点。因此近些年已广泛应用于环境监控,滑坡预测,网络防御,医学预测,故障检测,生物信息等领域。
[0003]随着社交媒体、互联网、云计算等信息科学技术的快速发展,各行业积累数据的速度加快,使数据的体量与种类在快速增长并带来了大数据。大数据与传统数据相比,具有4V特性,Volume(数量大)、Variety(种类多)、Velocity(速度快)、Value(价值密度低),这使得大数据下随机森林算法所需的时间复杂度较高,内存容量也较多,同时,通过提升硬件水平来满足现阶段大数据处理需求的方向仍 ...
【技术保护点】
【技术特征摘要】
1.一种基于增益率与堆叠自编码器的并行随机森林优化方法,其特征在于,包括:S1,对训练数据集进行特征降维:先对各特征计算特征依赖度获得候选特征集,再对候选特征集的各特征使用冗余过滤函数过滤候选特征集之外的冗余与不相关特征,并使用堆叠自编码器对数据集进行特征提取得到降维数据集;S2,子空间选择:计算由降维数据集初始化生成的特征子空间的信息含量后判断是否满足设定阈值,并对不满足设定阈值的特征子空间进行重新选取;S3,并行构建随机森林:计算各节点分配后的节点数据量以衡量节点负载后,通过节点分配函数选择负载较小的节点分配Reduce任务;S4,将待测数据输入随机森林,得到最终分类结果。2.根据权利要求1所述的一种基于增益率与堆叠自编码器的并行随机森林优化方法,其特征在于,所述S1包括:S1
‑
1,特征选择:用于减少数据集中的冗余与不相关特征数;1)获取平均信息增益:计算每个特征的信息增益IG
i
,然后根据每个特征增益值的概率计算平均信息增益AIG;2)过滤不相关特征:根据AIG得到每个特征的增益评估系数g
i
并计算每个特征的增益率Gr
i
,然后根据特征依赖度FD来去除不相关的特征;3)过滤冗余特征:通过冗余过滤函数RFF对集合F中对优势特征在类别分类时有较大影响的特征进行过滤,然后重新组合获得优化后的特征集;S1
‑
2,特征提取:对特征选择后的数据集进一步提取优化;1)初始权重矩阵与特征矩阵重构:使用堆叠自编码器获取初始权重矩阵和偏置,通过反向传播调整权重矩阵以及偏置重构特征矩阵,并使用SoftMax分类器进行分类;2)信息损失量与分类误差估计:采用L2范数对信息损失量与分类误差进行估计;3)参数集优化:为了使信息损失量和分类误差总和达到最小,提出了参数优化函数对参数集进行优化。3.根据权利要求2所述的一种基于增益率与堆叠自编码器的并行随机森林优化方法,其特征在于,所述平均信息增益AIG包括:其中,IG
i
表示第i个特征的信息增益;p
i
为特征数的倒数;q为特征总个数。4.根据权利要求2所述的一种基于增益率与堆叠自编码器的并行随机森林优化方法,其特征在于,所述特征依赖度FD包括:FD(d
i
,L)=g
i
×
Gr(d
i
,L)其中FD(d
i
,L)为在标签集L下特征d
i
的特征依赖度;d
i
表示第i个特征;
g
i
为增益系数;Gr(d
i
,L)为标签集L下特征d
i
的增益率;IG
i
为特征的信息增益;AIG为平均信息增益;k为去除不相关特征后的特征总个数。5.根据权利要求2所述的一种基于增益率与堆叠自编码器的并行随机森林优化方法,其特征在于,所述冗余过滤函数RFF包括:RFF(d
α
,d
β
)=FD(L,d
α
)
‑
Gr(d
α
,d
β
)其中FD(L,d
α
)为标签集L下优势特征d
α
的特征依赖度;Gr(d
α
,d
β
)表示特征d
j
关于特征d
k
的增益率;d
α
表示第α个特征;d
β
表示第β个特征。6.根据权利要求2所述的一种基于增益率与堆叠自编码器的并行随机森林优化方法,其特征在于,所述初始权重矩阵与特征矩阵重构包括:首先,设置初始堆叠自动编码器含有一层输入层,一层输出层以及两层隐藏层,其中两层隐藏层的节点个数分别为h,h
′
,然后输入特征矩阵D
′
获取初始的权重矩阵,其中,输入特征矩阵到第一层隐藏层的权重矩阵为W1,偏置为b1,第一层隐藏层到第二层隐藏层的权重矩阵为W2,偏置为b2,第二层隐藏层到输出层的权重矩阵为W3,偏置为b3,则编码与解码过程表示如下:M1=σ(D
′
W1+b1)M2=σ(M1W2+b2)D
″
=σ(M2W3+b3...
【专利技术属性】
技术研发人员:毛伊敏,戴经国,陈伟达,陈志刚,霍英,
申请(专利权)人:韶关学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。