模型训练请求的调度方法及装置制造方法及图纸

技术编号:33737203 阅读:14 留言:0更新日期:2022-06-08 21:34
本申请提供一种模型训练请求的调度方法及装置,针对用于对模型进行训练的模型训练系统,该系统由多个参数节点和多个计算节点组成,参数节点用于基于梯度更新模型的参数,计算节点用于基于模型的参数计算梯度;该方法包括:获取多个计算节点发送的待处理请求;根据待处理请求中的节点标识,对各个待处理请求进行排序,其中,节点标识用于标识待处理请求对应的计算节点;根据排序结果,依次将各个待处理请求发送至参数节点,以得到各个待处理请求的处理结果。通过基于请求中计算节点的标识对请求进行排序,从而有序响应各个请求,缩短了参数节点响应单个计算节点请求的时间,提高了模型训练的效率。模型训练的效率。模型训练的效率。

【技术实现步骤摘要】
模型训练请求的调度方法及装置


[0001]本申请涉及深度学习
,尤其涉及一种模型训练请求的调度方法及装置。

技术介绍

[0002]在深度学习领域,如计算机视觉、自然语言处理、个性化推荐等领域,为了提高模型的质量或效果,在模型训练时通常采用更大规模的模型参数或更大规模的训练数据,如拥有万亿级参数规模的点击率预估模型、千亿级别参数规模的语言模型等。分布式训练已成为超大规模的模型高效训练的必要手段。
[0003]常用的分布式训练架构为ps

worker架构,该架构将节点分为ps(parameter server,参数服务器)和worker(工作服务器或计算服务器)两种角色,在异步模式下,每个worker独立地向多个ps发起pull或push请求,基于多个ps的反馈的模型参数进行梯度计算,以基于梯度进行ps中存储的模型参数的更新。
[0004]在相关技术中,ps往往基于接收到的请求的时间顺序,依次响应各个请求。由于不同的worker之间是异步的,导致请求到达ps的时间是随机的,按照时间顺序处理各个请求的方式,请求响应效率低下,从而降低了异步训练的速度。

技术实现思路

[0005]本申请提供一种模型训练请求的调度方法及装置,通过基于请求中的节点标识对请求进行排序,实现了以计算节点为单位,控制参数节点有序响应各个计算节点的请求,缩短了参数节点针对每个计算节点的响应时间,提高了整体的训练速度。
[0006]第一方面,本申请提供一种模型训练请求的调度方法,所述方法应用于模型训练系统,所述模型训练系统用于基于训练集对模型进行训练,所述模型训练系统包括多个参数节点和多个计算节点,所述参数节点用于基于梯度更新模型的参数,所述计算节点用于基于模型的参数计算梯度;所述方法包括:
[0007]获取多个计算节点发送的待处理请求;根据待处理请求中的节点标识,对各个待处理请求进行排序;根据排序结果,依次将各个待处理请求发送至参数节点,以得到各个待处理请求的处理结果;其中,节点标识用于标识待处理请求对应的计算节点。
[0008]第二方面,本申请提供一种模型训练请求的调度装置,应用于模型训练系统,所述模型训练系统用于基于训练集对模型进行训练,所述模型训练系统包括多个参数节点和多个计算节点,所述参数节点用于基于梯度更新模型的参数,所述计算节点用于基于模型的参数计算梯度;所述模型训练请求的调度装置包括网络收发模块和调度模块;其中,所述网络收发模块,用于接收各个计算节点发送的待处理请求;所述调度模块,用于根据待处理请求中的节点标识,对接收到的各个待处理请求进行排序,得到排序结果,并根据所述排序结果,依次将各个待处理请求发送至参数节点,以得到各个待处理请求对应的处理结果,其中,节点标识用于标识待处理请求对应的计算节点。
[0009]第三方面,本申请提供一种电子设备,包括:
[0010]处理器,以及与所述处理器通信连接的存储器;
[0011]所述存储器存储计算机执行指令;
[0012]所述处理器执行所述存储器存储的计算机执行指令,以实现本申请第一方面提供的模型训练请求的调度方法。
[0013]第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现本申请第一方面提供的模型训练请求的调度方法。
[0014]第五方面,本申请提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请第一方面提供的模型训练请求的调度方法。
[0015]本申请提供的模型训练请求的调度方法及装置,针对采用模型训练系统进行模型训练的场景,该模型训练系统采用ps

worker架构,由多个参数节点和多个计算节点组成,针对参数节点,在接收到多个计算节点发送的待处理请求之后,基于待处理请求中的节点标识,即用于识别计算节点的标识,对所接收的来自多个计算节点的待处理请求进行排序,基于排序结果依次发送各个待处理请求至参数节点,从而使得参数节点按照排序结果依次响应各个待处理请求,得到其处理结果,实现了以计算节点为粒度的请求排序,使得多个参数节点中响应请求的顺序保持一致,从而使得同一计算节点的多个待处理请求得以同时被响应,缩短了计算节点面的请求响应时间,提高了模型训练的效率。
附图说明
[0016]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0017]图1A为本申请一个实施例提供的模型训练系统的示意图;
[0018]图1B为本申请一个实施例提供的同步模式下计算节点训练过程的示意图;
[0019]图1C为本申请一个实施例提供的异步模式下计算节点训练过程的示意图;
[0020]图2为本申请实施例提供的一种模型训练请求的调度方法的流程示意图;
[0021]图3为本申请图2所示实施例中步骤S202一种可能实现方式的流程示意图;
[0022]图4为本申请图2所示实施例中步骤S202另一种可能实现方式的流程示意图;
[0023]图5为本申请图2所示实施例中步骤S202另一种可能实现方式的流程示意图;
[0024]图6为本申请另一个实施例提供的模型训练请求的调度方法的流程示意图;
[0025]图7为本申请实施例提供的一种模型训练请求的调度装置的结构示意图;
[0026]图8为本申请另一个实施例提供的模型训练请求的调度装置的结构示意图;
[0027]图9为本申请实施例提供的一种电子设备的结构示意图。
[0028]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0029]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例
中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0030]首先,对本申请所涉及的名词进行解释:
[0031]参数节点:在深度学习训练过程中,用于存储、分发、汇总和更新模型的参数的节点,每个参数节点负责模型的部分参数。
[0032]计算节点:在深度学习训练过程中,用于执行训练相关作业的节点,包括推理计算和梯度计算,不同的计算节点之间没有通信。
[0033]pull:计算节点根据模型的拓扑结构,从对应的参数节点中拉取最新的模型参数。
[0034]push:计算节点将计算得到的梯度上传给对应的参数节点,以进行模型参数的更新。
[0035]图1A为本申请一个实施例提供的模型训练系统的示意图,如图1A所示,该模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练请求的调度方法,其特征在于,所述方法应用于模型训练系统,所述模型训练系统用于基于训练集对模型进行训练,所述模型训练系统包括多个参数节点和多个计算节点,所述参数节点用于基于梯度更新模型的参数,所述计算节点用于基于模型的参数计算梯度;所述方法包括:获取多个计算节点发送的待处理请求;根据待处理请求中的节点标识,对各个待处理请求进行排序;根据排序结果,依次将各个待处理请求发送至参数节点,以得到各个待处理请求的处理结果;其中,节点标识用于标识待处理请求对应的计算节点。2.根据权利要求1所述的方法,其特征在于,根据待处理请求中的节点标识,对各个待处理请求进行排序,包括:根据待处理请求中的节点标识,以及待处理请求的类型和待处理请求中的训练轮数中的至少一项,对各个待处理请求进行排序;其中,训练轮数用于表征待处理请求对应的计算节点所进行的模型训练的轮数。3.根据权利要求2所述的方法,其特征在于,根据待处理请求中的节点标识,以及待处理请求的类型和待处理请求中的训练轮数中的至少一项,对各个待处理请求进行排序,包括:根据待处理请求的类型,对各个待处理请求进行排序,得到第一排序结果;根据待处理请求中的节点标识,对所述第一排序结果中顺序相同的各个待处理请求进行排序,得到第二排序结果,以基于所述第二排序结果依次将各个待处理请求发送至参数节点的线程。4.根据权利要求3所述的方法,其特征在于,待处理请求包括参数获取请求和梯度更新请求两种类型,在所述第一排序结果中,参数获取请求的顺序先于梯度更新请求。5.根据权利要求2所述的方法,其特征在于,根据待处理请求中的节点标识,以及待处理请求的类型和待处理请求中的训练轮数中的至少一项,对各个待处理请求进行排序,包括:根据待处理请求中的训练轮数,对各个待处理请求进行排序,得到第三排序结果;根据待处理请求中的节点标识,对所述第三排序结果中顺序相同的各个待处理请求进行排序,得到第四排序结果,以基于所述第四排序结果依次将各个待处理请求发送至参数节点的线程。6....

【专利技术属性】
技术研发人员:李豪董建波宋钺张泽超
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1