【技术实现步骤摘要】
用于训练机器学习模型的方法、装置、设备和介质
[0001]本公开的示例实施方式总体涉及机器学习,特别地涉及用于训练机器学习模型的方法、装置、设备和计算机可读存储介质。
技术介绍
[0002]可以利用机器学习模型来执行多种应用环境中的任务。随着待处理任务的复杂化,机器学习模型的结构也变得更加复杂并且大小也随之增加,这导致难以在单一的计算节点处训练机器学习模型。目前已经提出了在多个计算节点处训练机器学习模型的分布式训练方式,然而,在训练期间需要在各个计算节点之间传输训练数据。传输过程一方面需要占用大量带宽,另一方面阻塞式的训练过程导致各个计算节点不得不等待接收到训练数据之后,才能确定模型的更新参数。此时,如何以更为有效的方式来利用多个计算节点训练机器学习模型,成为一个亟待解决的问题。
技术实现思路
[0003]在本公开的第一方面,提供了一种用于训练机器学习模型的方法。机器学习模型包括第一子模型和第二子模型,第一子模型位于计算系统中的第一计算节点,并且第二子模型位于计算系统中的第二计算节点。在该方法中,在第一计算节 ...
【技术保护点】
【技术特征摘要】
1.一种用于训练机器学习模型的方法,所述机器学习模型包括第一子模型和第二子模型,所述第一子模型位于计算系统中的第一计算节点,并且所述第二子模型位于所述计算系统中的第二计算节点,所述方法包括:在所述第一计算节点处,接收用于训练所述机器学习模型的第一组训练数据;从所述第二计算节点获取所述第二子模型;分别向所述第一子模型和获取的所述第二子模型输入所述第一组训练数据,以确定用于更新所述第一子模型的第一更新参数和用于更新所述第二子模型的第二更新参数;以及向所述第二计算节点传输所述第二更新参数。2.根据权利要求1的所述方法,其中获取所述第二子模型包括:在用于训练所述机器学习模型的训练阶段的开始时间点,从所述第二计算节点获取所述第二子模型。3.根据权利要求1的所述方法,其中获取所述第二子模型包括:响应于确定所述第一计算节点和所述第二计算节点两者位于所述计算系统中的第一计算设备,从所述第二计算节点的存储器向所述第一计算节点的存储器写入所述第二子模型。4.根据权利要求3的所述方法,其中向所述第一计算节点的所述存储器写入所述第二子模型包括:基于所述第一计算节点的所述存储器的存储器容量和所述第二子模型的大小,确定所述第一计算节点的所述存储器可容纳的子模型的阈值数量;以及响应于确定所述第一计算节点的所述存储器中的子模型的数量低于所述阈值数量,向所述第一计算节点的所述存储器写入所述第二子模型。5.根据权利要求4的所述方法,其中所述第一计算节点的所述存储器包括所述机器学习模型的第三子模型,所述方法进一步包括:响应于确定所述第一计算节点的所述存储器中的子模型的所述数量等于所述阈值数量,响应于确定所述第一计算节点的所述存储器中的所述第三子模型的第三更新参数已经被传输,从所述第一计算节点的所述存储器释放所述第三子模型;以及向所述第一计算节点的所述存储器写入所述第二子模型。6.根据权利要求4的所述方法,其中所述第一计算设备进一步包括第三计算节点,以及向第一计算节点的所述存储器写入所述第二子模型进一步包括:响应于接收到来自所述第三计算节点的读取所述第二子模型的请求,确定分别由所述第一计算节点和所述第三计算节点读取所述第二子模型的顺序;以及基于所述顺序来分别由所述第一计算节点和所述第三计算节点读取所述第二子模型,以便向所述第一计算节点的所述存储器和所述第三计算节点的所述存储器的写入所述第二子模型。7.根据权利要求3的所述方法,其中获取所述第二子模型进一步包括:响应于确定所述第一计算节点和所述第二计算节点分别位于所述计算系统中的所述第一计算设备和第二计算设备,经由所述第一计算设备和所述第二计算设备之间的第一类型的通信链路,从所述第二计算设备的存储器向所述第一计算设备的存储器写入所述第二子模型;以及经由所述第一计算设备和所述第一计算节点之间的第二类型的通信链路,从所述第一
计算设备的所述存储器向所述第一计算节点的所述存储器写入所述第二子模型。8.根据权利要求7的所述方法,其中所述第一计算设备进一步包括第三计算节点,以及所述方法进一步包括:响应于来自所述第三计算节点的请求,经由所述第一计算设备和所述第三计算节点之间的第二类型的通信链路,从所述...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。