用于优化机器学习模型训练的方法、装置及系统制造方法及图纸

技术编号：37064305 阅读：13 留言：0更新日期：2023-03-29 19:42

本说明书实施例提供用于优化机器学习模型训练的方法、装置及分布式机器学习模型训练系统。响应于完成本地模型计算得到模型参数的梯度信息，各个成员处理设备将梯度信息切片为第一数目个梯度信息切片；并与所属分布式训练节点的所有其它成员处理设备一起，使用各自梯度信息切片数据合并处理，每个编号的成员处理设备得到使用对应编号的梯度信息切片进行数据合并处理后的第一梯度信息切片合并结果。随后，各个成员处理设备与其它分布式训练节点的具有相同编号的所有其它成员处理设备一起，使用各自的第一梯度信息切片合并结果执行数据合并处理，得到第二梯度信息切片合并结果；并且将第二梯度信息切片合并结果存储在为该成员处理设备分配的存储空间中。员处理设备分配的存储空间中。员处理设备分配的存储空间中。

全部详细技术资料下载

【技术实现步骤摘要】
用于优化机器学习模型训练的方法、装置及系统

[0001]本说明书实施例通常涉及人工智能领域，尤其涉及用于优化机器学习模训练的方法、装置及分布式机器学习模型训练系统。

技术介绍

[0002]随着人工智能技术发展，机器学习模型被越来越多地应用于各种应用场景，比如，物品分类、信息流推送、人群识别、风险识别等。在一些场景下，用于机器学习模型训练的训练样本数据存储在不同数据节点处，由此该多个不同的数据节点组成分布式机器学习模型训练系统来训练机器学习模型。在分布式机器学习模型训练过程中，多个不同的数据节点会在模型训练过程的不同阶段产生不同的模型状态数据，所生成的模型状态数据需要存储在各个数据节点中，并且由该分布式机器学习模型训练系统中的不同数据节点协同使用，由此造成数据节点的存储空间占用以及各个数据节点之间的数据通信开销。数据节点的存储空间占用大小以及数据通信开销会影响分布式机器学习模型训练系统的系统性能。

技术实现思路

[0003]鉴于上述，本说明书实施例提供用于优化机器学习模型训练的方法、装置及分布式机器学习模型训练系统。利用该用于优化机器学习模型训练的方法及装置，可以降低分布式机器学习训练系统的训练节点处的存储空间占用大小以及数据通信开销，由此提升分布式机器学习模型训练系统的系统性能。
[0004]根据本说明书实施例的一个方面，提供一种用于优化机器学习模型训练的方法，所述方法由参与机器学习模型训练的至少两个分布式训练节点的一个分布式训练节点中的一个成员处理设备执行，所述方法包括：响应于完成本地模型计...

【技术保护点】

【技术特征摘要】
1.一种用于优化机器学习模型训练的方法，所述方法由参与机器学习模型训练的至少两个分布式训练节点的一个分布式训练节点中的一个成员处理设备执行，所述方法包括：响应于完成本地模型计算得到模型参数的梯度信息，将所述梯度信息切片为第一数目个梯度信息切片，所述第一数目为所述成员处理设备所位于的分布式训练节点中的成员处理设备的设备数目；与所述成员处理设备所属的分布式训练节点的所有其它成员处理设备一起，使用各自的梯度信息切片执行数据合并处理，每个分布式训练节点内的成员处理设备被赋予编号，每个编号的成员处理设备得到使用对应编号的梯度信息切片进行数据合并处理后的第一梯度信息切片合并结果；与其它分布式训练节点的具有相同编号的所有其它成员处理设备一起，使用各自的第一梯度信息切片合并结果执行数据合并处理，得到第二梯度信息切片合并结果；以及将所述第二梯度信息切片合并结果存储在为所述成员处理设备分配的存储空间中。2.如权利要求1所述的方法，其中，响应于完成本地模型计算得到模型参数的梯度信息，将所述梯度信息切片为第一数目个梯度信息切片包括：响应于完成本地模型计算得到模型参数的梯度信息，获取所述成员处理设备所属的分布式训练节点中的各个成员处理设备的可用存储空间；以及根据各个成员处理设备的可用存储空间，将所述梯度信息切片为第一数目个梯度信息切片。3.如权利要求2所述的方法，其中，根据各个成员处理设备的可用存储空间，将所述梯度信息切片为第一数目个梯度信息切片包括：根据各个成员处理设备的可用存储空间，将所述梯度信息切片为第一数目个梯度信息切片，所切分出的各个梯度信息切片具有与对应编号的成员处理设备的可用存储空间比例匹配的切片大小。4.如权利要求2所述的方法，其中，响应于完成本地模型计算得到模型参数的梯度信息，获取所述成员处理设备所属的分布式训练节点中的各个成员处理设备的可用存储空间包括：响应于完成本地模型计算得到模型参数的梯度信息，获取所述成员处理设备所属的分布式训练节点中的各个成员处理设备的可用存储空间和可用处理能力，以及根据各个成员处理设备的可用存储空间，将所述梯度信息切片为第一数目个梯度信息切片包括：根据各个成员处理设备的可用存储空间和可用处理能力，将所述梯度信息切片为第一数目个梯度信息切片，所切分出的各个梯度信息切片具有与对应编号的成员处理设备的可用存储空间比例以及可用处理能力匹配的切片大小。5.如权利要求1所述的方法，还包括：响应于得到所述第二梯度信息切片合并结果，使用所述第二梯度信息切片合并结果更新待训练的机器学习模型的模型参数；以及与所述成员处理设备所属的分布式训练节点的所有其它成员处理设备一起，使用各自更新后的模型参数执行模型参数拼接来实现所述机器学习模型的模型参数更新。6.如权利要求1所述的方法，还包括：
响应于启动本地模型训练过程，与所述成员处理设备所属的分布式训练节点的所有其它成员处理设备一起，使用各自存储的所述机器学习模型的部分模型参数执行模型参数拼接来生成完整的机器学习模型。7.如权利要求1所述的方法，其中，同一分布式训练节点内的成员处理设备采用第一通信链路链接，以及不同分布式训练节点的相同编号的成员设备之间采用第二通信链路链接，所述第一通信链路的数据传输带宽高于所述第二通信链路的数据传输带宽。8.如权利要求1所述的方法，其中，所述成员处理设备包括GPU设备，以及所述存储空间包括显存。9.一种用于优化机器学习模型训练的装置，所述装置应用于参与机器学习模型训练的至少两个分布式训练节点的一个分布式训练节...

【专利技术属性】
技术研发人员：吴侠宝，刘永超，金跃，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人