【技术实现步骤摘要】
本公开涉及机器学习,尤其涉及一种负载均衡方法、装置、电子设备及存储介质。
技术介绍
1、分布式训练中一种重要的模型并行方法是流水线并行,在流水线并行中设备与设备之间的前向计算与反向计算都存在数据依赖,当参与流水线并行的设备较多时,最先进行前向计算的设备在前向计算结束后到反向计算开始前有较长时间的空闲,而较晚进行前向计算的设备在第一个设备空闲时仍在进行繁忙的计算工作,从而造成各设备的计算负载不均衡。
技术实现思路
1、有鉴于此,本公开提出了一种负载均衡方法、装置、电子设备、存储介质及计算机程序产品。
2、根据本公开的一方面,提供了一种负载均衡方法,应用于分布式计算集群,所述分布式计算集群中多个计算节点采用流水线并行的方式对预设模型进行训练;其中,每一计算节点部署有所述预设模型按网络层分拆出的一个子模型,不同计算节点所部署的子模型不同;
3、所述方法包括:
4、将n个微批量数据依次输入到第一计算节点中,所述多个计算节点依次进行所述n个微批量数据中各微批量数据
...【技术保护点】
1.一种负载均衡方法,其特征在于,应用于分布式计算集群,所述分布式计算集群中多个计算节点采用流水线并行的方式对预设模型进行训练;其中,每一计算节点部署有所述预设模型按网络层分拆出的一个子模型,不同计算节点所部署的子模型不同;
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述第一计算节点重计算第二计算节点释放的在进行M1个微批量数据对应流水线上的前向计算时产生的中间结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述第一计算节点获取所述第二计算节点部署的子模型及所述第二
...【技术特征摘要】
1.一种负载均衡方法,其特征在于,应用于分布式计算集群,所述分布式计算集群中多个计算节点采用流水线并行的方式对预设模型进行训练;其中,每一计算节点部署有所述预设模型按网络层分拆出的一个子模型,不同计算节点所部署的子模型不同;
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,所述第一计算节点重计算第二计算节点释放的在进行m1个微批量数据对应流水线上的前向计算时产生的中间结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述第一计算节点获取所述第二计算节点部署的子模型及所述第二计算节点进行所述m1个微批量数据对应流水线上的前向计算的输入数据之前,还包括:
5.根据权利要求4所述的方法,其特征在于,所述第一计算节点将所述第一计算节点部署的子模型及所述第一计算节点进行所述n个微批量数据对应流水线上的前向计算的输出结果转移到第一存储节点,包括:
6.根据权利要求2所述的方法,其特征在于,所述第二计算节点重计算所述第一计算节点释放的进行m2个微批量数据对应流水线上的前向计算时产生的中间结果,包括:
7.根据权利要求6所述的方法,其特征在于,所述第二计算节点获取所述第一计算节点部署的子模型...
【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,
申请(专利权)人:摩尔线程智能科技成都有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。