System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 模型训练方法、装置、电子设备、服务器及存储介质制造方法及图纸_技高网

模型训练方法、装置、电子设备、服务器及存储介质制造方法及图纸

技术编号:40544975 阅读:6 留言:0更新日期:2024-03-05 19:02
本公开提出一种模型训练方法、装置、电子设备、服务器及存储介质,应用于资源管理方,所述资源管理方管理服务器集群的资源,该方法包括:获取配置信息,其中,配置信息,由待训练模型信息确定;确定服务器集群的可用资源信息;根据配置信息和可用资源信息,从多个计算服务器中确定第一计算服务器,其中,多个计算服务器属于服务器集群;以及生成与第一计算服务器对应的模型训练任务,其中,模型训练任务用于触发第一计算服务器训练待训练模型。在模型训练过程中,有效地支持服务器集群中节点的弹性伸缩,能够实现服务器集群资源的灵活调配,有效避免造成资源浪费,提升模型训练效率。

【技术实现步骤摘要】

本公开涉及计算机,尤其涉及一种模型训练方法、装置、电子设备、服务器及存储介质


技术介绍

1、随着执行人工智能任务的模型复杂度的提升和数据规模的增长,基于服务器集群的分布式的模型训练已成为目前主流的训练方式,在分布式训练过程中,通过整合多个服务器节点的资源,能够实现并行执行模型训练任务,以提升模型训练效率。在分布式模型训练场景中,服务器集群中各个服务器节点的模型训练任务分配,以及服务器节点之间的交互形式存在相应的架构模式,架构模式例如,参数服务器架构。

2、相关技术中,在参数服务器架构中,有一部分节点被分配为参数服务器,参数服务器用于切分存储模型参数并负责更新参数;另一部分节点被指定为计算服务器,用于并行地读取训练数据并训练模型,定期推送梯度到参数服务器并拉取最新的模型参数,以进行模型训练。

3、这种方式下,在模型训练过程中,不支持服务器集群中节点的弹性伸缩,无法实现服务器集群资源的灵活调配,容易造成资源浪费,影响模型训练效率。


技术实现思路

1、本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此,本公开的目的在于提出一种模型训练方法、装置、电子设备、服务器、存储介质及计算机程序产品,在模型训练过程中,有效地支持服务器集群中节点的弹性伸缩,能够实现服务器集群资源的灵活调配,有效避免造成资源浪费,提升模型训练效率。

3、本公开第一方面实施例提出的模型训练方法,应用于资源管理方,资源管理方管理服务器集群的资源,包括:获取配置信息,其中,配置信息,由待训练模型信息确定;确定服务器集群的可用资源信息;根据配置信息和可用资源信息,从多个计算服务器中确定第一计算服务器,其中,多个计算服务器属于服务器集群;以及生成与第一计算服务器对应的模型训练任务,其中,模型训练任务用于触发第一计算服务器训练待训练模型。

4、本公开第一方面实施例提出的模型训练方法,通过获取配置信息,并确定服务器集群的可用资源信息,以及根据配置信息和可用资源信息,从多个计算服务器中确定第一计算服务器,以及生成与第一计算服务器对应的模型训练任务,由于是根据待训练模型信息灵活地确定配置信息,并基于该配置信息和服务器集群的可用资源信息灵活地选取、调配服务器集群中的第一计算服务器,以基于第一计算服务器执行模型训练任务,能够在模型训练过程中,有效地支持服务器集群中节点的弹性伸缩,能够实现服务器集群资源的灵活调配,有效避免造成资源浪费,提升模型训练效率。

5、本公开第二方面实施例提出的模型训练方法,应用于服务器集群,服务器集群包括:多个计算服务器,包括:向资源管理方提供待训练模型信息,其中,待训练模型信息用于确定配置信息;向资源管理方提供服务器集群的可用资源信息;基于资源管理方所生成模型训练任务,确定第一计算服务器,其中,第一计算服务器由资源管理方基于配置信息和可用资源信息从多个计算服务器中确定;控制第一计算服务器,基于模型训练任务训练待训练模型。

6、本公开第二方面实施例提出的模型训练方法,通过向资源管理方提供待训练模型信息和服务器集群的可用资源信息,基于资源管理方所生成模型训练任务,确定第一计算服务器,控制第一计算服务器,基于模型训练任务训练待训练模型,由于是向资源管理方提供待训练模型信息和服务器集群的可用资源信息,使得资源管理方可以基于该配置信息和服务器集群的可用资源信息灵活地选取、调配服务器集群中的第一计算服务器,当基于第一计算服务器执行模型训练任务时,能够在模型训练过程中,有效地支持服务器集群中节点的弹性伸缩,能够实现服务器集群资源的灵活调配,有效避免造成资源浪费,提升模型训练效率。

7、本公开第三方面实施例提出的模型训练装置,应用于资源管理方,资源管理方管理服务器集群的资源,包括:获取模块,用于获取配置信息,其中,配置信息,由待训练模型信息确定;第一确定模块,用于确定服务器集群的可用资源信息;第二确定模块,用于根据配置信息和可用资源信息,从多个计算服务器中确定第一计算服务器,其中,多个计算服务器属于服务器集群;以及生成模块,用于生成与第一计算服务器对应的模型训练任务,其中,模型训练任务用于触发第一计算服务器训练待训练模型。

8、本公开第三方面实施例提出的模型训练装置,通过获取配置信息,确定服务器集群的可用资源信息,根据配置信息和可用资源信息,从多个计算服务器中确定第一计算服务器,以及生成与第一计算服务器对应的模型训练任务,由于是根据待训练模型信息灵活地确定配置信息,并基于该配置信息和服务器集群的可用资源信息灵活地选取、调配服务器集群中的第一计算服务器,以基于第一计算服务器执行模型训练任务,能够在模型训练过程中,有效地支持服务器集群中节点的弹性伸缩,能够实现服务器集群资源的灵活调配,有效避免造成资源浪费,提升模型训练效率。

9、本公开第四方面实施例提出的模型训练装置,应用于服务器集群,服务器集群包括:多个计算服务器,包括:第一提供模块,用于向资源管理方提供待训练模型信息,其中,待训练模型信息用于确定配置信息;第二提供模块,用于向资源管理方提供服务器集群的可用资源信息;第七确定模块,用于基于资源管理方所生成模型训练任务,确定第一计算服务器,其中,第一计算服务器由资源管理方基于配置信息和可用资源信息从多个计算服务器中确定;第二控制模块,用于控制第一计算服务器,基于模型训练任务训练待训练模型。

10、本公开第四方面实施例提出的模型训练装置,通过向资源管理方提供待训练模型信息,向资源管理方提供服务器集群的可用资源信息,基于资源管理方所生成模型训练任务,确定第一计算服务器,控制第一计算服务器,基于模型训练任务训练待训练模型,由于是向资源管理方提供待训练模型信息和服务器集群的可用资源信息,使得资源管理方可以基于该配置信息和服务器集群的可用资源信息灵活地选取、调配服务器集群中的第一计算服务器,当基于第一计算服务器执行模型训练任务时,能够在模型训练过程中,有效地支持服务器集群中节点的弹性伸缩,能够实现服务器集群资源的灵活调配,有效避免造成资源浪费,提升模型训练效率。

11、本公开第五方面,提供了一种电子设备,包括:本公开第三方面实施例提出的模型训练装置。

12、本公开第六方面,提供了一种服务器,包括:本公开第四方面实施例提出的模型训练装置。

13、本公开第七方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开第一方面实施例的模型训练方法,或者执行本公开第二方面实施例的模型训练方法。

14、本公开第八方面,提出了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本公开第一方面实施例的模型训练方法,或者执行本公开第二方面实施例的模型训练方法。

15、本公开第九方面,提供了一种计算机程序产品,包括计算机程序本文档来自技高网...

【技术保护点】

1.一种模型训练方法,其特征在于,应用于资源管理方,所述资源管理方管理服务器集群的资源,其中,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述配置信息包括:计算节点数量;其中,所述根据所述配置信息和所述可用资源信息,从多个计算服务器中确定第一计算服务器,包括:

3.如权利要求2所述的方法,其特征在于,其中,所述所占用资源信息包括:与第一计算节点数量的计算服务器对应的第一占用资源信息,和与第二计算节点数量的计算服务器对应的第二占用资源信息,所述第一计算节点数量小于所述第二计算节点数量。

4.如权利要求3所述的方法,其特征在于,所述根据所述所占用资源信息和/或所述可用资源信息,从多个计算服务器中确定所述第一计算服务器,包括:

5.如权利要求4所述的方法,其特征在于,还包括:

6.如权利要求4所述的方法,其特征在于,所述根据所述可用资源信息从所述多个计算服务器中确定所述第一计算服务器,包括:

7.如权利要求4所述的方法,其特征在于,所述根据所述第二占用资源信息从所述多个计算服务器中确定所述第一计算服务器,包括:

8.如权利要求1所述的方法,其特征在于,所述配置信息还包括:参数节点数量和域名配置信息;其中,在所述生成与所述第一计算服务器对应的模型训练任务之前,还包括:

9.如权利要求8所述的方法,其特征在于,所述生成与所述第一计算服务器对应的模型训练任务,包括:

10.如权利要求9所述的方法,其特征在于,所述控制所述第一计算服务器基于所述模型训练任务训练所述待训练模型,包括:

11.如权利要求10所述的方法,其特征在于,在所述控制所述第一计算服务器基于所述模型训练任务训练所述待训练模型之后,还包括:

12.如权利要求11所述的方法,其特征在于,所述控制所述第一计算服务器停止基于所述模型训练任务的模型训练,包括:

13.如权利要求3所述的方法,其特征在于,所述根据所述所占用资源信息和/或所述可用资源信息,从多个计算服务器中确定所述第一计算服务器,还包括:

14.如权利要求13所述的方法,其特征在于,在所述生成与所述第一计算服务器对应的模型训练任务之后,还包括:

15.一种模型训练方法,其特征在于,应用于服务器集群,所述服务器集群包括:多个计算服务器,其中,所述方法包括:

16.如权利要求15所述的方法,其特征在于,所述控制所述第一计算服务器,基于所述模型训练任务训练待训练模型,包括:

17.如权利要求15所述的方法,其特征在于,所述服务器集群还包括:参数服务器、数据分发服务器;

18.如权利要求17所述的方法,其特征在于,所述数据分发服务器包括:数据分发服务和数据快照服务;

19.如权利要求15所述的方法,其特征在于,还包括:

20.一种模型训练装置,其特征在于,应用于资源管理方,所述资源管理方管理服务器集群的资源,其中,所述装置包括:

21.一种模型训练装置,其特征在于,应用于服务器集群,所述服务器集群包括:多个计算服务器,其中,所述装置包括:

22.一种电子设备,包括:

23.一种服务器,包括:

24.一种电子设备,包括:

25.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-14中任一项所述的模型训练方法,或者执行权利要求15-19中任一项所述的模型训练方法。

...

【技术特征摘要】

1.一种模型训练方法,其特征在于,应用于资源管理方,所述资源管理方管理服务器集群的资源,其中,所述方法包括:

2.如权利要求1所述的方法,其特征在于,所述配置信息包括:计算节点数量;其中,所述根据所述配置信息和所述可用资源信息,从多个计算服务器中确定第一计算服务器,包括:

3.如权利要求2所述的方法,其特征在于,其中,所述所占用资源信息包括:与第一计算节点数量的计算服务器对应的第一占用资源信息,和与第二计算节点数量的计算服务器对应的第二占用资源信息,所述第一计算节点数量小于所述第二计算节点数量。

4.如权利要求3所述的方法,其特征在于,所述根据所述所占用资源信息和/或所述可用资源信息,从多个计算服务器中确定所述第一计算服务器,包括:

5.如权利要求4所述的方法,其特征在于,还包括:

6.如权利要求4所述的方法,其特征在于,所述根据所述可用资源信息从所述多个计算服务器中确定所述第一计算服务器,包括:

7.如权利要求4所述的方法,其特征在于,所述根据所述第二占用资源信息从所述多个计算服务器中确定所述第一计算服务器,包括:

8.如权利要求1所述的方法,其特征在于,所述配置信息还包括:参数节点数量和域名配置信息;其中,在所述生成与所述第一计算服务器对应的模型训练任务之前,还包括:

9.如权利要求8所述的方法,其特征在于,所述生成与所述第一计算服务器对应的模型训练任务,包括:

10.如权利要求9所述的方法,其特征在于,所述控制所述第一计算服务器基于所述模型训练任务训练所述待训练模型,包括:

11.如权利要求10所述的方法,其特征在于,在所述控制所述第一计算服务器基于所述模型训练任务训练所述待训练...

【专利技术属性】
技术研发人员:郭锦荣魏艳伟徐振新牛文杰朱小坤包勇军
申请(专利权)人:北京沃东天骏信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1