PS架构下基于可编程交换机的梯度调度方法和装置制造方法及图纸

技术编号:34511683 阅读:31 留言:0更新日期:2022-08-13 20:57
本发明专利技术提出了一种PS架构下基于可编程交换机的梯度调度方法和装置。其中,该方法由数据中心平台的控制器执行,包括:根据worker节点的训练任务、可编程交换机计算负载以及链路带宽负载生成相应约束问题;根据所述约束问题确定各worker节点梯度聚合的目标聚合点和路由路径;若所述目标聚合点为可编程交换机,则控制worker节点将自身梯度发送至对应的目标可编程交换机进行网内聚合。本实施例在PS架构中加入可编程交换机,通过在可编程交换机中设计并实现基于梯度段的梯度聚合功能,降低梯度传输数据量,从而消除网络带宽瓶颈,达到加速PS架构分布式模型训练的效果。PS架构分布式模型训练的效果。PS架构分布式模型训练的效果。

【技术实现步骤摘要】
PS架构下基于可编程交换机的梯度调度方法和装置


[0001]本专利技术属于网络服务质量(Quality of Service,QoS)领域,具体涉及一种PS架构下基于可编程交换机的梯度调度方法和装置。

技术介绍

[0002]随着机器学习模型规模不断扩大,训练数据不断增加,单机训练已经无法满足需求,基于多机的分布式模型训练成为研究热点。参数服务器(PS)架构是其中一种常见的分布式机器学习架构。传统PS架构由两部分组成:主节点PS和若干worker节点。PS负责全局管理模型训练,包括:训练数据划分、模型参数聚合以及模型参数更新。worker节点负责在本地训练模型,并将每一轮训练结果以梯度形式发给PS聚合。由于网络带宽限制以及训练规模的增加,PS架构训练瓶颈在worker向PS发送参数的聚合部分。
[0003]现有方案通常从参数压缩,集体通信角度优化网络带宽瓶颈,但这些方案仅从优化数据发送量以及优化链路利用率方面考虑,没有考虑到数据面的优化。

技术实现思路

[0004]为了解决现有技术中的问题,本专利技术提供一种PS架构下基于本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种PS架构下基于可编程交换机的梯度调度方法,其特征在于,由数据中心平台的控制器执行,所述数据中心平台还包括主节点PS、若干Worker节点、以及可编程交换机,所述可编程交换机包括若干聚合器,所述聚合器用于以梯度段为粒度对worker节点发送的梯度进行网内聚合,该方法包括:S10 、根据worker节点的训练任务、可编程交换机计算负载以及链路带宽负载生成相应约束问题;S20 、根据所述约束问题确定各worker节点梯度聚合的目标聚合点和路由路径;S30 、若所述目标聚合点为可编程交换机,则控制worker节点将自身梯度发送至对应的目标可编程交换机进行网内聚合,并通过所述目标可编程交换机路由路径将聚合后的梯度发送至主节点PS。2.根据权利要求1所述的方法,其特征在于,所述S20中约束问题的优化目标是最小化主节点PS直接聚合的梯度量,相应的,所述S20具体包括:根据所述优化目标计算出所述约束问题的最优分数解;根据该最优分数解的值设置其舍入为1的概率,并进行随机舍入操作确定各worker节点梯度聚合的目标可编程交换机。3.根据权利要求1所述的方法,其特征在于,所述S30中的worker节点将自身梯度发送对应的目标可编程交换机进行聚合,包括:worker节点将自身梯度转换成32位整型元素,并封装在若干自定义数据包NGAA中,将封装后的NGAA包发送至所述目标可编程交换机,以通过所述目标可编程交换机对NGAA包中的梯度进行网内聚合。4.根据权利要求3所述的方法,其特征在于,在所述S30之后,还包括:通过主节点PS对聚合后的NGAA包执行求平均操作,并将处理后的梯度封装成NGAA参数包发送给所有worker节点。5.根据权利要求3所述的方法,其特征在于,所述NGAA包包括:以太网帧包头,ipv4包头、NGAA包头、以及负载,所述负载包括转换后的整型梯度元素。6.根据权利要求4所述的方法,其特征在于,所述NGAA包头包括:bitmap字段:为自身标识;switchid字段:作为聚合点的可编程交换机编号;count...

【专利技术属性】
技术研发人员:赵功名方缙徐宏力吴昌博
申请(专利权)人:中国科学技术大学苏州高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1