System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 分布式训练方法及电子设备技术_技高网

分布式训练方法及电子设备技术

技术编号:39975553 阅读:5 留言:0更新日期:2024-01-09 01:07
本申请提供了一种分布式训练方法及电子设备。该方法包括:在第一集群的多个目标计算节点中,创建目标计算任务对应的计算任务进程;将第一数据集对应的第一缓存服务设置为目标计算任务的输入;根据交换网络、第一缓存服务和计算节点组,确定是否扩容;如果确定扩容,在每个目标计算节点中创建第一缓存服务的第二缓存进程,从第一缓存进程读取第一数据集并存储到第二缓存进程;目标计算节点从目标计算节点中的第二缓存进程读取第一数据集中的数据,用于目标计算节点上的计算任务进程的训练。这样,使计算任务训练过程中能够在本地读取训练所需数据,提高数据读取速度,节约网络通信带宽,从而提高训练速度。

【技术实现步骤摘要】

本申请涉及终端设备领域,尤其涉及一种分布式训练方法及电子设备


技术介绍

1、目前,各类模型例如机器学习模型、深度学习模型等应用越来越广泛。这些模型在投入使用之前,需要进行训练,以确定模型中的参数。

2、对于大模型,通常采用分布式训练方式,将大模型的训练任务(通常称为计算任务)分配在多个设备(这些设备称为计算节点)上进行训练。这些训练任务需要从远程数据集中读取训练数据。

3、训练数据的读取时间是模型的整体训练时间中的重要组成部分。如何减少训练数据的读取时间,对于提高模型的训练速度具有重要意义。


技术实现思路

1、为了解决上述技术问题,本申请提供一种分布式训练方法及电子设备,能够提高模型的分布式训练的训练速度。

2、第一方面,本申请提供一种分布式训练方法,该方法包括:在第一集群的多个目标计算节点中,创建目标计算任务对应的计算任务进程,所有目标计算节点组成计算节点组;将第一数据集对应的第一缓存服务设置为目标计算任务的输入,第一集群的至少一个缓存节点中包括第一缓存服务的第一缓存进程,第一缓存进程中存储有第一数据集;缓存节点设备通过交换网络与第一集群之外的远程数据库相连;根据交换网络、第一缓存服务和计算节点组,确定是否扩容;如果确定扩容,在每个目标计算节点中创建第一缓存服务的第二缓存进程,从第一缓存进程读取第一数据集并存储到第二缓存进程;目标计算节点从目标计算节点中的第二缓存进程读取第一数据集中的数据,用于目标计算节点上的计算任务进程的训练。这样,能够自动将远程训练数据,扩容到计算任务所在的计算节点,使计算任务训练过程中能够在本地读取训练所需数据,一方面能够节约网络通信带宽,另一方面能够提高数据读取速度,从而减少模型的训练时间,提高模型的分布式训练的训练速度。

3、根据第一方面,在第一集群的多个目标计算节点中,创建目标计算任务对应的计算任务进程之前,还包括:在至少一个缓存节点中创建第一缓存服务的第一缓存进程;从远程数据库读取第一数据集并存储到第一缓存进程中。

4、根据第一方面,根据交换网络、第一缓存服务和计算节点组,确定是否扩容,包括:获取第一缓存服务对应的第一特征数据、交换网络对应的第二特征数据、计算节点组对应的第三特征数据;从第一特征数据中提取第一特征向量,从第二特征数据中提取第二特征向量,从第三特征数据中提取第三特征向量;根据第一特征向量、第二特征向量和第三特征向量,得到第一组合特征向量;将第一组合特征向量输入到已训练好的扩容决策模型,由扩容决策模型输出是否扩容的第一决策结果。

5、根据第一方面,根据交换网络、第一缓存服务和计算节点组,确定是否扩容,包括:根据交换网络、第一缓存服务、计算节点组和目标计算任务,确定是否扩容。

6、根据第一方面,根据交换网络、第一缓存服务、计算节点组和目标计算任务,确定是否扩容,包括:获取第一缓存服务对应的第一特征数据、交换网络对应的第二特征数据、计算节点组对应的第三特征数据、以及目标计算任务对应的第四特征数据;从第一特征数据中提取第一特征向量,从第二特征数据中提取第二特征向量,从第三特征数据中提取第三特征向量,从第四特征数据中提取第四特征向量;根据第一特征向量、第二特征向量、第三特征向量和第四特征向量,得到第二组合特征向量;将第二组合特征向量输入到已训练好的扩容决策模型,由扩容决策模型输出是否扩容的第二决策结果。

7、根据第一方面,扩容决策模型为分类模型。

8、根据第一方面,第一特征数据包括第一数据集的统计信息、缓存设置信息和缓存应用信息。

9、根据第一方面,第一数据集的统计信息包括第一数据集的文件总大小、文件总数量、文件格式;第一数据集的缓存设置信息包括缓存容量、缓存介质、缓存进程数量;第一数据集的缓存应用信息包括应用第一数据集的缓存的计算任务数量、应用第一数据集的缓存的计算任务历史信息。

10、根据第一方面,第二特征数据包括如下数据中的任意一种或多种:交换网络中各交换机的:中央处理器cpu利用率、内存使用率、网络吞吐率、丢包率、错误报文数、拥塞信息。

11、根据第一方面,第三特征数据包括如下数据中的任意一种或多种:计算节点组中各个计算节点可分配的空闲的:第一cpu信息、第一gpu信息、第一内存信息、第一固态硬盘信息,各个计算节点已经分配的:第二cpu信息、第二gpu信息、第二内存信息、第二固态硬盘信息,各个计算节点所处的网络拓扑结构。

12、根据第一方面,第四特征数据包括如下数据中的任意一种或多种:任务优先级、用户信息、申请的中央处理器cpu资源、申请的图形处理器gpu资源、申请内存资源、使用的输入数据信息、对应的算法类型、历史执行信息。

13、根据第一方面,在至少一个缓存节点中创建第一缓存服务的第一缓存进程,包括:接收第一缓存服务创建请求;获取第一数据集的数据量;如果第一数据集的数据量小于数据量阈值,设置第一缓存服务的第一缓存进程的缓存容量等于第一数据集的数据量;为第一数据集对应的第一缓存服务资源设置缓存初始化标签和缓存服务标签;向第一集群发送第一指令,第一指令携带第一缓存服务资源;根据第一指令,在第一集群中具有缓存初始化标签的至少一个缓存节点中创建第一缓存进程。

14、根据第一方面,根据交换网络、第一缓存服务和计算节点组,确定是否扩容,包括:如果交换网络的吞吐率大于预设的吞吐率阈值,且第一缓存服务中的第一数据集的数据量小于计算节点组中的目标计算节点的可用存储容量,确定扩容。

15、根据第一方面,根据交换网络、第一缓存服务、计算节点组和目标计算任务,确定是否扩容,包括:如果交换网络的吞吐率大于预设的吞吐率阈值,第一缓存服务中的第一数据集的数据量小于计算节点组中的目标计算节点的可用存储容量,且目标计算任务的优先级高于预设等级和/或目标计算任务的算法的历史训练速度小于预设速度值,确定扩容。

16、根据第一方面,每个第一缓存进程存储第一数据集的全部数据;每个第二缓存进程存储第一数据集的全部数据。

17、第二方面,本申请提供一种电子设备,包括:存储器和处理器,存储器与处理器耦合;存储器存储有程序指令,当程序指令由处理器执行时,使得电子设备执行第一方面任意一项的分布式训练方法。

18、第三方面,本申请提供一种计算机可读存储介质,包括计算机程序,当计算机程序在电子设备上运行时,使得电子设备执行前述的第一方面任意一项的分布式训练方法。

本文档来自技高网...

【技术保护点】

1.一种分布式训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在第一集群的多个目标计算节点中,创建目标计算任务对应的计算任务进程之前,还包括:

3.根据权利要求1所述的方法,其特征在于,根据所述交换网络、所述第一缓存服务和所述计算节点组,确定是否扩容,包括:

4.根据权利要求1所述的方法,其特征在于,根据所述交换网络、所述第一缓存服务和所述计算节点组,确定是否扩容,包括:

5.根据权利要求4所述的方法,其特征在于,根据所述交换网络、所述第一缓存服务、所述计算节点组和所述目标计算任务,确定是否扩容,包括:

6.根据权利要求3或5所述的方法,其特征在于,所述扩容决策模型为分类模型。

7.根据权利要求3或5所述的方法,其特征在于,所述第一特征数据包括所述第一数据集的统计信息、缓存设置信息和缓存应用信息。

8.根据权利要求7所述的方法,其特征在于,所述第一数据集的统计信息包括所述第一数据集的文件总大小、文件总数量、文件格式;所述第一数据集的缓存设置信息包括缓存容量、缓存介质、缓存进程数量;所述第一数据集的缓存应用信息包括应用所述第一数据集的缓存的计算任务数量、应用所述第一数据集的缓存的计算任务历史信息。

9.根据权利要求3或5所述的方法,其特征在于,所述第二特征数据包括如下数据中的任意一种或多种:

10.根据权利要求3或5所述的方法,其特征在于,所述第三特征数据包括如下数据中的任意一种或多种:

11.根据权利要求3所述的方法,其特征在于,所述第四特征数据包括如下数据中的任意一种或多种:

12.根据权利要求2所述的方法,其特征在于,在所述至少一个缓存节点中创建所述第一缓存服务的所述第一缓存进程,包括:

13.根据权利要求1所述的方法,其特征在于,根据所述交换网络、所述第一缓存服务和所述计算节点组,确定是否扩容,包括:

14.根据权利要求4所述的方法,其特征在于,根据所述交换网络、所述第一缓存服务、所述计算节点组和所述目标计算任务,确定是否扩容,包括:

15.根据权利要求1所述的方法,其特征在于,每个所述第一缓存进程存储所述第一数据集的全部数据;每个所述第二缓存进程存储所述第一数据集的全部数据。

16.一种电子设备,其特征在于,包括:

17.一种计算机可读存储介质,包括计算机程序,其特征在于,当所述计算机程序在电子设备上运行时,使得所述电子设备执行如权利要求1至15任一项所述的分布式训练方法。

...

【技术特征摘要】

1.一种分布式训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在第一集群的多个目标计算节点中,创建目标计算任务对应的计算任务进程之前,还包括:

3.根据权利要求1所述的方法,其特征在于,根据所述交换网络、所述第一缓存服务和所述计算节点组,确定是否扩容,包括:

4.根据权利要求1所述的方法,其特征在于,根据所述交换网络、所述第一缓存服务和所述计算节点组,确定是否扩容,包括:

5.根据权利要求4所述的方法,其特征在于,根据所述交换网络、所述第一缓存服务、所述计算节点组和所述目标计算任务,确定是否扩容,包括:

6.根据权利要求3或5所述的方法,其特征在于,所述扩容决策模型为分类模型。

7.根据权利要求3或5所述的方法,其特征在于,所述第一特征数据包括所述第一数据集的统计信息、缓存设置信息和缓存应用信息。

8.根据权利要求7所述的方法,其特征在于,所述第一数据集的统计信息包括所述第一数据集的文件总大小、文件总数量、文件格式;所述第一数据集的缓存设置信息包括缓存容量、缓存介质、缓存进程数量;所述第一数据集的缓存应用信息包括应用所述第一数据集的缓存的计算任务数量、应用所述第一数据集的缓存的计算任务历史...

【专利技术属性】
技术研发人员:高礼
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1