模型训练请求的调度方法及装置制造方法及图纸

技术编号：33737203 阅读：14 留言：0更新日期：2022-06-08 21:34

本申请提供一种模型训练请求的调度方法及装置，针对用于对模型进行训练的模型训练系统，该系统由多个参数节点和多个计算节点组成，参数节点用于基于梯度更新模型的参数，计算节点用于基于模型的参数计算梯度；该方法包括：获取多个计算节点发送的待处理请求；根据待处理请求中的节点标识，对各个待处理请求进行排序，其中，节点标识用于标识待处理请求对应的计算节点；根据排序结果，依次将各个待处理请求发送至参数节点，以得到各个待处理请求的处理结果。通过基于请求中计算节点的标识对请求进行排序，从而有序响应各个请求，缩短了参数节点响应单个计算节点请求的时间，提高了模型训练的效率。模型训练的效率。模型训练的效率。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练请求的调度方法及装置

[0001]本申请涉及深度学习
，尤其涉及一种模型训练请求的调度方法及装置。

技术介绍

[0002]在深度学习领域，如计算机视觉、自然语言处理、个性化推荐等领域，为了提高模型的质量或效果，在模型训练时通常采用更大规模的模型参数或更大规模的训练数据，如拥有万亿级参数规模的点击率预估模型、千亿级别参数规模的语言模型等。分布式训练已成为超大规模的模型高效训练的必要手段。
[0003]常用的分布式训练架构为ps
‑
worker架构，该架构将节点分为ps(parameter server，参数服务器)和worker(工作服务器或计算服务器)两种角色，在异步模式下，每个worker独立地向多个ps发起pull或push请求，基于多个ps的反馈的模型参数进行梯度计算，以基于梯度进行ps中存储的模型参数的更新。
[0004]在相关技术中，ps往往基于接收到的请求的时间顺序，依次响应各个请求。由于不同的worker之间是异步的，导致请求到达ps的时间是随机的，按照时间顺序处理各个请求的方式，请求响应效率低下，从而降低了异步训练的速度。

技术实现思路

[0005]本申请提供一种模型训练请求的调度方法及装置，通过基于请求中的节点标识对请求进行排序，实现了以计算节点为单位，控制参数节点有序响应各个计算节点的请求，缩短了参数节点针对每个计算节点的响应时间，提高了整体的训练速度。
[0006]第一方面，本申请提供一种模型训练请求的调度方法，所述方法应用...

【技术保护点】

【技术特征摘要】
1.一种模型训练请求的调度方法，其特征在于，所述方法应用于模型训练系统，所述模型训练系统用于基于训练集对模型进行训练，所述模型训练系统包括多个参数节点和多个计算节点，所述参数节点用于基于梯度更新模型的参数，所述计算节点用于基于模型的参数计算梯度；所述方法包括：获取多个计算节点发送的待处理请求；根据待处理请求中的节点标识，对各个待处理请求进行排序；根据排序结果，依次将各个待处理请求发送至参数节点，以得到各个待处理请求的处理结果；其中，节点标识用于标识待处理请求对应的计算节点。2.根据权利要求1所述的方法，其特征在于，根据待处理请求中的节点标识，对各个待处理请求进行排序，包括：根据待处理请求中的节点标识，以及待处理请求的类型和待处理请求中的训练轮数中的至少一项，对各个待处理请求进行排序；其中，训练轮数用于表征待处理请求对应的计算节点所进行的模型训练的轮数。3.根据权利要求2所述的方法，其特征在于，根据待处理请求中的节点标识，以及待处理请求的类型和待处理请求中的训练轮数中的至少一项，对各个待处理请求进行排序，包括：根据待处理请求的类型，对各个待处理请求进行排序，得到第一排序结果；根据待处理请求中的节点标识，对所述第一排序结果中顺序相同的各个待处理请求进行排序，得到第二排序结果，以基于所述第二排序结果依次将各个待处理请求发送至参数节点的线程。4.根据权利要求3所述的方法，其特征在于，待处理请求包括参数获取请求和梯度更新请求两种类型，在所述第一排序结果中，参数获取请求的顺序先于梯度更新请求。5.根据权利要求2所述的方法，其特征在于，根据待处理请求中的节点标识，以及待处理请求的类型和待处理请求中的训练轮数中的至少一项，对各个待处理请求进行排序，包括：根据待处理请求中的训练轮数，对各个待处理请求进行排序，得到第三排序结果；根据待处理请求中的节点标识，对所述第三排序结果中顺序相同的各个待处理请求进行排序，得到第四排序结果，以基于所述第四排序结果依次将各个待处理请求发送至参数节点的线程。6....

【专利技术属性】
技术研发人员：李豪，董建波，宋钺，张泽超，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人