一种基于任务并行的细粒度分布式深度森林训练方法技术

技术编号:24889871 阅读:33 留言:0更新日期:2020-07-14 18:16
本发明专利技术公开了一种基于任务并行的细粒度分布式深度森林训练方法,包括以下步骤:(a)在深度森林的每一层,其中每一个森林被拆分成多个均匀的子森林,其中每个子森林对应一个计算任务;(b)为子森林设置合适的随机状态,为子森林训练时的交叉验证设置合适的随机状态;(c)将子森林训练任务发放到各个计算节点执行;(d)采用Tree‑Reduce树形合并法将属于同一个随机森林的子森林的结果合并,得到该原始随机森林的训练结果,完成多个森林的并行训练。以提高深度森林训练效率,促进其应用与解决实际问题。

【技术实现步骤摘要】
一种基于任务并行的细粒度分布式深度森林训练方法
本专利技术涉及分布式机器学习领域,尤其涉及一种基于任务并行的细粒度分布式深度森林训练算法。
技术介绍
针对深度神经网络(DNN)需要大量数据样本和昂贵计算资源、超参数调优难以及不适合处理有结构数据等问题,许多研究人员开始探索DNN的替代方案。周志华等提出了深度森林,这为许多机器学习任务开辟了一扇新的大门。深度森林是随机森林的深度集成模型,具有一个级联森林结构,以进行表示学习。与DNN相比,深度森林可以自适应地确定的模型复杂度(例如,级联层的层数)。此外,深度森林在大范围的任务中实现了相比DNN更加优异的精度结果。在许多任务中,深度森林是DNN的理想的替代品。然而,现有的深度森林训练系统gcForest效率不高。原因有两点,首先,gcForest深度森林的训练过程是串行的。在每个级联层中,森林是顺序地进行训练的。其次,gcForest是一个缺乏可扩展性的单机系统,效率不高。举例来说,在具有2个IntelXeon2.1GHzCPU(12个物理核)的商用PC上,gcForest在MNIST数据集本文档来自技高网...

【技术保护点】
1.一种基于任务并行的细粒度分布式深度森林训练方法,其特征在于,包括以下步骤:/n(a)在深度森林的每一层,其中每一个森林被拆分成多个均匀的子森林,其中每个子森林对应一个计算任务;/n(b)为子森林设置合适的随机状态,为子森林训练时的交叉验证设置合适的随机状态;/n(c)将子森林训练任务发放到各个计算节点执行;/n(d)采用基于树形规约树的分层树形合并法将属于同一个随机森林的子森林的结果合并,得到该原始随机森林的训练结果,完成多个森林的并行训练。/n

【技术特征摘要】
1.一种基于任务并行的细粒度分布式深度森林训练方法,其特征在于,包括以下步骤:
(a)在深度森林的每一层,其中每一个森林被拆分成多个均匀的子森林,其中每个子森林对应一个计算任务;
(b)为子森林设置合适的随机状态,为子森林训练时的交叉验证设置合适的随机状态;
(c)将子森林训练任务发放到各个计算节点执行;
(d)采用基于树形规约树的分层树形合并法将属于同一个随机森林的子森林的结果合并,得到该原始随机森林的训练结果,完成多个森林的并行训练。


2.根据权利要求1所述的基于任务并行的细粒度分布式深度森林训练方法,其特征在于,在步...

【专利技术属性】
技术研发人员:朱光辉
申请(专利权)人:江苏鸿程大数据技术与应用研究院有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1