System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练方法、装置、计算机设备及存储介质制造方法及图纸_技高网

模型训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:41218936 阅读:4 留言:0更新日期:2024-05-09 23:39
本申请提供了一种模型训练方法、装置、计算机设备及存储介质,属于计算机技术领域。该方法包括:基于多个计算机设备包括的多个图形处理器的计算能力和工作负载,确定多个图形处理器的任务分配比例,计算能力用于表示图形处理器的每秒浮点运算次数;基于任务分配比例,对大语言模型的训练任务进行划分,得到多个训练子任务;对于多个图形处理器中的任一图形处理器,通过图形处理器,基于图形处理器对应的训练子任务,对大语言模型进行训练,得到训练子任务的梯度;基于多个训练子任务的梯度,对大语言模型的模型参数进行更新。上述技术方案能够保证每个图形处理器的计算能力都能得到充分利用,从而提高了图形处理器的利用率。

【技术实现步骤摘要】

本申请涉及计算机,特别涉及一种模型训练方法、装置、计算机设备及存储介质


技术介绍

1、随着大规模深度学习模型的发展,大语言模型作为大规模深度学习模型中的一员,由于模型的复杂性和庞大的参数数量,其训练过程需要大量计算资源支持,尤其在使用大规模数据集对模型进行训练的情况下。因此,使用多台计算机(每台装有一个或多个图形处理器)并行训练模型已经成为一种常见的做法。然而,由于不同gpu(graphicsprocessing unit,图形处理器)的计算速度可能不同,而且不同的训练任务需要的计算资源也可能不同。因此,如何在模型训练过程中合理分配训练任务至每个gpu以确保每个gpu的计算能力得到充分利用,是一个亟需解决的技术问题。


技术实现思路

1、本申请实施例提供了一种模型训练方法、装置、计算机设备及存储介质,能够保证每个图形处理器的计算能力都能得到充分利用,从而提高了图形处理器的利用率。所述技术方案如下:

2、一方面,提供了一种模型训练方法,应用于计算机集群,所述计算机集群包括多个计算机设备,所述计算机设备包括至少一个图形处理器,所述方法包括:

3、基于所述多个计算机设备包括的多个图形处理器的计算能力和工作负载,确定所述多个图形处理器的任务分配比例,所述计算能力用于表示所述图形处理器的每秒浮点运算次数,所述工作负载用于表示所述图形处理器在运行过程中对所述计算能力的使用率;

4、基于所述任务分配比例,对大语言模型的训练任务进行划分,得到多个训练子任务,所述训练任务包括所述大语言模型的模型参数、训练数据以及训练参数,所述多个训练子任务与所述多个图形处理器一一对应;

5、对于所述多个图形处理器中的任一图形处理器,通过所述图形处理器,基于所述图形处理器对应的训练子任务,对所述大语言模型进行训练,得到所述训练子任务的梯度;

6、基于所述多个训练子任务的梯度,对所述大语言模型的模型参数进行更新。

7、另一方面,提供了一种模型训练装置,配置于计算机集群中,所述计算机集群包括多个计算机设备,所述计算机设备包括至少一个图形处理器,所述装置包括:

8、确定模块,用于基于所述多个计算机设备包括的多个图形处理器的计算能力和工作负载,确定所述多个图形处理器的任务分配比例,所述计算能力用于表示所述图形处理器的每秒浮点运算次数,所述工作负载用于表示所述图形处理器在运行过程中对所述计算能力的使用率;

9、划分模块,用于基于所述任务分配比例,对大语言模型的训练任务进行划分,得到多个训练子任务,所述训练任务包括所述大语言模型的模型参数、训练数据以及训练参数,所述多个训练子任务与所述多个图形处理器一一对应;

10、训练模块,用于对于所述多个图形处理器中的任一图形处理器,通过所述图形处理器,基于所述图形处理器对应的训练子任务,对所述大语言模型进行训练,得到所述训练子任务的梯度;

11、更新模块,用于基于所述多个训练子任务的梯度,对所述大语言模型的模型参数进行更新。

12、在一些实施例中,所述确定模块,包括:

13、第一确定单元,用于对于所述多个图形处理器中的任一图形处理器,基于所述图形处理器的计算能力和工作负载,确定所述图形处理器的空闲算力,所述空闲算力用于表示所述图形处理器剩余可用的浮点运算次数;

14、第二确定单元,用于将所述图形处理器的空闲算力在总空闲算力中的占比,确定为所述图形处理器的任务分配比例,所述总空闲算力为所述多个图形处理器的空闲算力的和值。

15、在一些实施例中,所述划分模块,用于对于所述多个图形处理器中的任一图形处理器,基于所述图形处理器的任务分配比例,从所述大语言模型的模型参数中确定目标模型参数,所述目标模型参数为所述模型参数中与所述任务分配比例匹配的模型参数;将所述目标模型参数、所述训练数据以及所述训练参数确定为所述训练子任务所包括的模型参数、训练数据以及训练参数。

16、在一些实施例中,所述训练模块,包括:

17、训练单元,用于对于所述多个图形处理器中的任一图形处理器,通过所述图形处理器,基于所述图形处理器对应的训练子任务,对所述大语言模型进行训练,得到所述大语言模型的训练损失;

18、第三确定单元,用于通过所述图形处理器,基于所述训练损失,确定所述训练子任务所包括的目标模型参数的梯度,所述梯度用于指示所述目标模型参数对所述训练损失的影响程度。

19、在一些实施例中,所述训练数据包括多个样本文本数据和所述多个样本文本数据的标签信息,所述标签信息用于表示所述样本文本数据的真实类别;

20、所述训练单元,用于基于所述大语言模型,对所述训练数据进行预测,得到所述训练数据的预测结果,所述预测结果包括所述多个样本文本数据的预测信息,所述预测信息用于表示所述样本文本数据的预测类别;基于所述多个样本文本数据的预测信息和所述多个样本文本数据的标签信息,确定所述训练损失,所述训练损失用于表示所述标签信息与所述预测信息之间的差异。

21、在一些实施例中,所述更新模块,用于对于所述多个图形处理器中的任一图形处理器,将所述图形处理器对应的训练子任务的梯度发送至多个目标图形处理器,所述多个目标图形处理器为所述多个图形处理器中除所述图形处理器外的图形处理器;将所述多个目标图形处理器对应的训练子任务的梯度发送至所述图形处理器,由所述图形处理器对所述多个训练子任务的梯度进行加权求和,基于加权求和得到的目标梯度,对所述图形处理器对应的训练子任务所包括的模型参数进行更新。

22、另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的模型训练方法。

23、另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一段计算机程序,所述至少一段计算机程序由处理器加载并执行以实现本申请实施例中的模型训练方法。

24、另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行以实现本申请实施例中的模型训练方法。

25、本申请实施例提供了一种模型训练方法,在模型训练过程中,通过负载均衡的方式,能够按照任务分配比例,对大语言模型的训练任务进行划分,得到多个训练子任务。由于任务分配比例能够反映图形处理器的计算能力和工作负载,因此多个训练子任务可以反映多个图形处理器当前的空闲算力。然后,通过将多个训练子任务分配给对应的图形处理器,由图形处理器完成训练子任务的梯度计算,能够保证每个图形处理器的计算能力都能得到充分利用,从而提高了图形处理器的利用率。并且,在梯度同步的过程中,由于各个图形处理器的训练子任务是按照当前空闲算力分配的,因此能够保证各个图形处理器在相隔时间较短的情况下计算出梯度,降低了图形处理器在梯度同步时的等待时间,提高了模型的训练速度。...

【技术保护点】

1.一种模型训练方法,其特征在于,应用于计算机集群,所述计算机集群包括多个计算机设备,所述计算机设备包括至少一个图形处理器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多个计算机设备包括的多个图形处理器的计算能力和工作负载,确定所述多个图形处理器的任务分配比例,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述任务分配比例,对大语言模型的训练任务进行划分,得到多个训练子任务,包括:

4.根据权利要求3所述的方法,其特征在于,所述对于所述多个图形处理器中的任一图形处理器,通过所述图形处理器,基于所述图形处理器对应的训练子任务,对所述大语言模型进行训练,得到所述训练子任务的梯度,包括:

5.根据权利要求4所述的方法,其特征在于,所述训练数据包括多个样本文本数据和所述多个样本文本数据的标签信息,所述标签信息用于表示所述样本文本数据的真实类别;

6.根据权利要求1所述的方法,其特征在于,所述基于所述多个训练子任务的梯度,对所述大语言模型的模型参数进行更新,包括:

7.一种模型训练装置,其特征在于,配置于计算机集群中,所述计算机集群包括多个计算机设备,所述计算机设备包括至少一个图形处理器,所述装置包括:

8.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器用于存储至少一段计算机程序,所述至少一段计算机程序由所述处理器加载并执行权利要求1至6任一项权利要求所述的模型训练方法。

9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储至少一段计算机程序,所述至少一段计算机程序用于执行权利要求1至6任一项权利要求所述的模型训练方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项权利要求所述的模型训练方法。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,应用于计算机集群,所述计算机集群包括多个计算机设备,所述计算机设备包括至少一个图形处理器,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述基于所述多个计算机设备包括的多个图形处理器的计算能力和工作负载,确定所述多个图形处理器的任务分配比例,包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述任务分配比例,对大语言模型的训练任务进行划分,得到多个训练子任务,包括:

4.根据权利要求3所述的方法,其特征在于,所述对于所述多个图形处理器中的任一图形处理器,通过所述图形处理器,基于所述图形处理器对应的训练子任务,对所述大语言模型进行训练,得到所述训练子任务的梯度,包括:

5.根据权利要求4所述的方法,其特征在于,所述训练数据包括多个样本文本数据和所述多个样本文本数据的标签信息,所述标签信息用于表示所述样本文本数据的真实类别...

【专利技术属性】
技术研发人员:陈孝良涂贤玲常乐黄赟贺
申请(专利权)人:北京声智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1