当前位置: 首页 > 专利查询>清华大学专利>正文

分布式机器学习的参数同步方法及装置制造方法及图纸

技术编号:24352671 阅读:65 留言:0更新日期:2020-06-03 01:55
本发明专利技术实施例提供一种分布式机器学习的参数同步方法及装置,其中方法包括:将用于产生机器学习的参数的N

Parameter synchronization method and device for distributed machine learning

【技术实现步骤摘要】
分布式机器学习的参数同步方法及装置
本专利技术涉及机器学习
,更具体地,涉及分布式机器学习的参数同步方法及装置。
技术介绍
由于多租户数据中心里的流量模式无法预测,因此大多数数据中心网络拓扑采用的是无阻塞的Fat-Tree结构。但是,分布式机器学习节点之间的同步数据大小和模式是规律且可预测的,如果采用Fat-Tree拓扑运行传统参数同步方法,许多链路资源和交换机资源将处于空闲状态。此外,由于Fat-Tree拓扑里节点之间的通信往往需要多跳来实现,如果选择部署RDMA(RemoteDirectMemoryAccess,远程直接数据存取)协议会出现性能下降的问题。传统的参数同步方法有基于参数服务器(ParameterServer)和AllReduce两种。对于PS同步方法,服务器的角色被分为参数服务器和worker(工作服务器)。其中,Worker负责计算,参数服务器负责参数聚合和分发。当PS同步方法部署于Fat-Tree网络里时,参数服务器容易成为瓶颈,对于AllReduce同步方法,当AllReduce同步方法部署于Fat-Tre本文档来自技高网...

【技术保护点】
1.一种分布式机器学习的参数同步方法,其特征在于,包括:/n将用于产生机器学习的参数的N

【技术特征摘要】
1.一种分布式机器学习的参数同步方法,其特征在于,包括:
将用于产生机器学习的参数的Nk个服务器组建为BCube架构,所述BCube架构共有k层次的交换机,每个交换机连接的服务器的数量为N个;
在每次机器学习训练迭代完成后,将所有参数分为k份参数集合,由服务器开启k个线程对每份参数集合执行参数同步任务;
其中,N和k均为大于等于2的整数。


2.根据权利要求1所述的分布式机器学习的参数同步方法,其特征在于,所述参数同步任务包括聚合任务;
所述聚合任务包括:对BCube架构中的所有层级逐层进行参数聚合;其中,在第i次参数聚合时,同一交换机下的每个服务器承担第i-1次参数聚合结果中1/N数量的参数的聚合任务,其中,同一交换机下的每个服务器在第i-1次参数聚合的参数相同而在第i次参数聚合的参数不同;i为整数,且2≤i≤k。


3.根据权利要求2所述的分布式机器学习的参数同步方法,其特征在于,所述聚合任务还包括:
在第1次参数聚合时,同一交换机下的每个服务器承担所述参数集合中1/N数量的参数的聚合任务。


4.根据权利要求1-3任意一项所述的分布式机器学习的参数同步方法,其特征在于,每个参数同步任务还包括分发任务;
所述分发任务包括:在所述BCube架构中的所有层级参数聚合后,对BCube架构中的所有层级逐层进行参数分发,其中所述参数分发的层级顺序与所述参数聚合的层级顺序相反:
其中,在第j次参数分发时,每个服务器将第j-1次参数分发结果分发至同一交换机下的其他服务器;j为整数,且2≤j≤k。


5.根据权利要求4所述的分布式机器学习的参数同步方法,其特征在于,所述分发任务还包括:
在第1次参数分发时,每个服务器将自身在最后一层参数聚合时承担的参数的聚合结果分发至同一交换机下的其他服务器,获得每个服务器的第1次参数分发结果。


6.一种...

【专利技术属性】
技术研发人员:李丹王松涛吴建平程阳
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1