模型训练设备的性能优化方法、装置及设备制造方法及图纸

技术编号：40161332 阅读：5 留言：0更新日期：2024-01-26 23:35

本公开提供了一种模型训练设备的性能优化方法、装置及设备，涉及本公开涉及人工智能技术领域，尤其涉及深度学习、大模型训练、分布式并行策略等技术领域。具体实现方案为：确定当前模型训练设备针对目标排序位置的目标模型块的通信时机，以便于和多个模型训练设备中的其它模型训练设备能够针对目标排序位置的模型块进行同步调聚合通信；在通信时机，对目标模型块的反向梯度执行聚合通信。本公开实施例中通过使多个模型训练设备的通信时机基本保持一致，从而尽可能消除部分气泡，以提高设备的性能，进而可以最大程度地利用模型训练设备的并行计算能力。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及人工智能，尤其涉及深度学习、大模型训练、分布式并行策略等。

技术介绍

1、大模型是指具有大量参数和复杂结构的机器学习模型。大模型可以处理海量数据，从而提高机器学习模型的准确性和泛化能力。大模型具有更高的复杂度和更强的灵活性，可以处理更加复杂的问题。大模型具有更多的参数和更为复杂的结构，能够更加准确地表达数据分布和学习到更复杂的特征，从而提高模型的准确率和性能。

2、大模型具有更广泛的应用场景和更高的表现能力，然而，大模型需要处理大量的数据和参数，训练和推理时间较长，需要消耗更多的计算资源。

技术实现思路

1、本公开提供了一种模型训练设备的性能优化方法、装置及设备。

2、根据本公开的一方面，提供了一种模型训练设备的性能优化方法，包括：

3、确定当前模型训练设备针对目标排序位置的目标模型块的通信时机，以便于和多个模型训练设备中的其它模型训练设备能够针对目标排序位置的模型块进行同步调聚合通信；其中，当前模型训练设备为多个模型训练设备中的任意训练设备；多个模型训练设备用于训练同一目标模型；目标模型切分为多个模型阶段，每个模型阶段包括依序排布的多个模型块；采用分布式并行策略训练目标模型的过程中因通信操作增加模型训练设备的计算时长而产生气泡；

4、在通信时机，对目标模型块的反向梯度执行聚合通信。

5、根据本公开的另一方面，提供了一种模型训练设备的性能优化装置，包括：

6、确定模块，用于确定当前模型训练设备针对目标

7、执行模块，用于在通信时机，对目标模型块的反向梯度执行聚合通信。

8、根据本公开的另一方面，提供了一种电子设备，包括：

9、至少一个处理器；以及

10、与该至少一个处理器通信连接的存储器；其中，

11、该存储器存储有可被该至少一个处理器执行的指令，该指令被该至少一个处理器执行，以使该至少一个处理器能够执行本公开中任一实施例的方法。

12、根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。

13、根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。

14、本公开实施例中在分布式训练目标模型的多个模型训练设备中，采用数据并行结合1f1b交错式调度方式的流水线并行策略的基础上，通过实现多个模型训练设备同步调的通信，可有效降低气泡率，提高模型训练设备的性能。

15、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种模型训练设备的性能优化方法，包括：

2.根据权利要求1所述的方法，其中，所述确定当前模型训练设备针对目标排序位置的目标模型块的通信时机，包括：

3.根据权利要求2所述的方法，其中，确定满足所述目标约束条件，包括：

4.根据权利要求2所述的方法，其中，确定满足所述目标约束条件，包括：

5.根据权利要求4所述的方法，还包括：

6.根据权利要求4所述的方法，还包括：

7.根据权利要求4所述的方法，其中，所述基于所述累积计数确定完成了整数个批次的反向梯度计算，包括：

8.根据权利要求4所述的方法，其中，所述确定所述目标排序位置的目标模型块，包括：

9.根据权利要求1所述的方法，其中，所述确定当前模型训练设备针对目标排序位置的目标模型块的通信时机，包括：

10.根据权利要求1-9中任一项所述的方法，还包括：

11.根据权利要求1-10中任一项所述的方法，所述目标模型执行以下任务中的至少一种：

12.根据权利要求1-11中任一项所述的方法，所述目标模型采

13.一种模型训练设备的性能优化装置，包括：

14.根据权利要求13所述的装置，其中，所述确定模块，包括：

15.根据权利要求14所述的装置，其中，所述确定模块还包括第二确定子模块，用于基于以下方法确定满足所述目标约束条件：

16.根据权利要求14所述的装置，其中，所述确定模块还包括第三确定子模块，用于基于以下方法确定满足所述目标约束条件：

17.根据权利要求16所述的装置，所述确定模块还包括第四确定子模块，具体用于：

18.根据权利要求16所述的装置，所述确定模块还包括第五确定子模块，具体用于：

19.根据权利要求16所述的装置，其中，其中，所述第三确定子模块，具体用于：

20.根据权利要求16所述的装置，其中，所述第三确定子模块，具体用于：

21.根据权利要求13所述的装置，其中，所述确定模块，包括：

22.根据权利要求13-21中任一项所述的装置，还包括：

23.根据权利要求13-22中任一项所述的装置，所述目标模型执行以下任务中的至少一种：

24.根据权利要求13-23中任一项所述的装置，所述目标模型采用数据并行策略结合1F1B交错式调度方式的流水线并行策略进行训练，且按照所述流水线并行策略所述目标模型切分为所述多个模型阶段，各模型阶段分配到相应的模型训练设备中进行训练；

25.一种电子设备，包括：

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-12中任一项所述的方法。

...

【技术特征摘要】