【技术实现步骤摘要】
基于分布式训练系统的计算方法和装置
[0001]本公开涉及人工智能
,具体涉及一种基于分布式训练系统的计算方法和装置。
技术介绍
[0002]随着计算机技术的发展和人工智能技术的进步,联邦学习逐渐成为一个热门课题。联邦学习通过多方协作完成机器学习模型的训练,在保护用户隐私和数据安全的同时,解决了数据孤岛的问题。
[0003]针对联邦学习,需要将机器学习模型部署到分布式训练系统中。但是在部署过程中,分布式训练系统中不同的训练成员都需要操作人员进行单独部署,导致模型部署时间较长。
技术实现思路
[0004]针对上述问题,本公开实施例提供了一种基于分布式训练系统的计算方法和装置。
[0005]第一方面,提供一种基于分布式训练系统的计算方法,所述分布式训练系统包括多个训练成员,所述多个训练成员包括多种角色,所述多种角色中的不同角色的训练成员在机器学习模型的训练过程中执行不同的操作,所述方法应用于所述多个训练成员中的第一训练成员,所述方法包括:获取多个模型,所述多个模型分别用于定义与所述机器学习模 ...
【技术保护点】
【技术特征摘要】
1.一种基于分布式训练系统的计算方法,所述分布式训练系统包括多个训练成员,所述多个训练成员包括多种角色,所述多种角色中的不同角色的训练成员在机器学习模型的训练过程中执行不同的操作,所述方法应用于所述多个训练成员中的第一训练成员,所述方法包括:获取多个模型,所述多个模型分别用于定义与所述机器学习模型的训练相关的多种计算操作;将所述多个模型输入至分布式模型,以对所述分布式模型进行初始化,所述分布式模型具有第一函数,所述第一函数用于定义所述多种角色在所述训练过程中各自需要执行的计算操作和通信操作;在所述训练过程中,根据所述分布式模型,执行所述第一训练成员的角色对应的计算操作和通信操作。2.根据权利要求1所述的方法,所述多个模型包括第一模型、第二模型和第三模型,所述第一模型的输入为特征数据,所述第一模型的输出结果为所述第二模型的输入,所述第二模型的输出结果为所述第三模型的输入,所述第三模型包括所述机器学习模型的损失函数计算模型。3.根据权利要求2所述的方法,所述机器学习模型为神经网络模型,所述第一模型为所述神经网络模型的前N层,所述第二模型为所述神经网络模型的除所述前N层之外的剩余层,所述第三模型为所述神经网络模型的损失函数计算模型。4.根据权利要求2所述的方法,所述多种角色包括第一角色、第二角色和第三角色,所述第一角色的训练成员的本地训练数据包括特征数据,所述第二角色的训练成员的本地训练数据不包括特征数据,且不包括标签数据,所述第三角色的训练成员的本地训练数据包括标签数据,所述在所述训练过程中,根据所述分布式模型,执行所述第一训练成员的角色对应的计算操作和通信操作,包括:如果所述第一训练成员的本地训练数据包括特征数据,则所述第一训练成员:执行所述第一模型,并将所述第一模型的执行结果发送至所述第二角色的训练成员;如果所述第一训练成员的本地训练数据不包括特征数据,且不包括标签数据,则所述第一训练成员:接收第一模型的执行结果,根据第一模型的执行结果执行第二模型,并将所述第二模型的执行结果发送至所述第三角色的训练成员;如果所述第一训练成员的本地数据包括标签数据,则所述第一训练成员:接收所述第二模型的执行结果,根据第二模型的执行结果执行第三模型,确定所述第三模型的执行结果;如果所述第一训练成员的本地数据包括标签数据,则所述第一训练成员:根据所述第三模型的执行结果和所述标签数据,更新所述第三模型,得到所述第二模型的输出层的梯度,将所述第二模型的输出层的梯度发送至所述第二角色的训练成员;如果所述第一训练成员的本地训练数据不包括特征数据,且不包括标签数据,则所述第一训练成员:接收所述第二模型的输出层的梯度,根据所述第二模型的输出层的梯度,更新所述第二模型,确定所述第一模型的输出层的梯度,将所述第一模型的输出层的梯度发送至所述第一角色的训练成员;
如果所述第一训练成员的本地训练数据包括特征数据,且不包括标签数据,则所述第一训练成员:接收所述第一模型的输出层的梯度,更新所述第一模型。5.根据权利要求2所述的方法,所述分布式模型具有第二函数,所述第二函数用于定义所述多种角色在所述机器学习模型的评估过程中各自需要执行的计算操作和通信操作;所述方法还包括:在所述评估过程中,根据所述分布式模型,执行所述第一训练成员的角色对应的计算操作和通信操作。6.根据权利要求5所述的方法,在所述评估过程中,根据所述分布式模型,执行所述第一训练成员的角色对应的计算操作和通信操作,包括:如果所述第一训练成员的本地训练数据包括特征数据,则所述第一训练成员:执行所述第一模型,并将所述第一模型的执行结果发送至所述第二角色的训练成员;如果所述第一训练成员的本地训练数据不包括特征数据,且不包括标签数据,则所述第一训练成员:接收第一模型的执行结果,根据第一模型的执行结果执行第二模型,并将所述第二模型的执行结果发送至所述第三角色的训练成员;如果所述第一训练成员的本地数据包括标签数据,则所述第一训练成员:接收所述第二模型的执行结果,根据第二模型的执行结果执行第三模型,确定所述第三模型的执行结果;根据所述第三模型的执行结果和所述标签数据,对所述机器学习模型进行评估。7.根据权利要求2所述的方法,所述方法还包括:如果所述第一训练成员的本地数据包括特征数据,则对所述第一模型进行编译;如果所述第一训练成员的本地数据不包括特征数据,且不包括标签数据,则对所述第二模型进行编译;如果所述第一训练成员的本地数据包括签数据,则对所述第三模型进行编译。8.一种基于分布式训练系统的计算装置,所述分布式训练系统包括多个训练成员,所述多个训练成员包括多种角色...
【专利技术属性】
技术研发人员:郑龙飞,张本宇,林懿伦,王力,
申请(专利权)人:支付宝杭州信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。