基于分布式系统的模型训练方法、计算节点和系统技术方案

技术编号:44899054 阅读:21 留言:0更新日期:2025-04-08 18:47
一种基于分布式系统的模型训练方法、计算节点和系统,所述分布式系统包括n组计算节点,每组计算节点包括m个计算节点,每组中的m个计算节点与目标模型包括的m个参数集合分别对应,所述方法包括:每组中的m个计算节点联合进行多次训练,使得每组中的各个计算节点得到其对应的参数集合中各个参数的第一值;所述n组中与第一参数对应的n个第一计算节点基于所述第一参数的n个第一值,确定与所述第一参数对应的第二值;所述n个第一计算节点分别将所述第一参数的值同步为所述第二值。

【技术实现步骤摘要】

本说明书实施例属于机器学习领域,尤其涉及一种基于分布式系统的模型训练方法、计算节点和系统


技术介绍

1、分布式数据并行训练(distributed data parallel,ddp)框架是用于实现分布式训练的重要框架,其允许在多个处理单元(如gpu)上并行训练深度学习模型。具体是,可将训练数据分散到多个处理单元上,每个处理单元都有模型的完整的参数副本,每个处理单元可使用其训练样本进行对模型副本的训练。各个处理单元在每次反向传播过程之后对模型参数的梯度进行同步(all-reduce),从而使得各个处理单元的模型参数一致。然而,该训练方法在每次训练中同步梯度,存在频繁通信的问题。另外,多个处理单元中总是随机存在慢节点,该多个处理单元在每次训练中都需要等待慢节点完成训练之后才能够同步梯度,从而导致训练速度较慢。

2、针对上述问题,在一种本地随机梯度下降法(local stochastic gradientdescent,local sgd)中,每个节点独立并行地执行多次本地更新步骤,然后所有节点之间再对参数进行同步,以减少通信频率,并减少随机慢节本文档来自技高网...

【技术保护点】

1.一种基于分布式系统的模型训练方法,所述分布式系统包括n组计算节点,每组计算节点包括m个计算节点,每组中的m个计算节点与目标模型包括的m个参数集合分别对应,所述方法包括:

2.根据权利要求1所述的方法,所述每组中的m个计算节点联合进行多次训练,包括:

3.根据权利要求1所述的方法,所述目标模型被划分为连续排列的多个模块,所述第一参数为所述多个模块中的第一模块中的参数,

4.根据权利要求3所述的方法,还包括:

5.根据权利要求3所述的方法,所述n个第一计算节点分别在其的所述多次训练的下一次训练的前向传播过程中,基于所述第一参数的n个第一值,...

【技术特征摘要】

1.一种基于分布式系统的模型训练方法,所述分布式系统包括n组计算节点,每组计算节点包括m个计算节点,每组中的m个计算节点与目标模型包括的m个参数集合分别对应,所述方法包括:

2.根据权利要求1所述的方法,所述每组中的m个计算节点联合进行多次训练,包括:

3.根据权利要求1所述的方法,所述目标模型被划分为连续排列的多个模块,所述第一参数为所述多个模块中的第一模块中的参数,

4.根据权利要求3所述的方法,还包括:

5.根据权利要求3所述的方法,所述n个第一计算节点分别在其的所述多次训练的下一次训练的前向传播过程中,基于所述第一参数的n个第一值,确定与所述第一参数对应的第二值,包括:

6.根据权利要求1所述的方法,所述n组中与第一参数对应的n个第一计算节点基于所述第一参数的n个第一值,确定与所述第一参数对应的第二值,包括:

7.根据权利要求6所述的方法,所述基于所述n个第一值中的除所述异常值之外的多个第一值确定所述第二值,包括:

8.根据权利要求7所述的方法,其中所述基于所述多个差值和各个差值的权重计算第三值包括:

9.根据权利要求1所述的方法,所述每组中的m个计算节点联合进行多次训练,包括:每组计算节点进行联合训练的次数基于预设的第一时间间...

【专利技术属性】
技术研发人员:程嘉梁高宁岳赟叶至灵蒋佳弟沙剑
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1