基于GPU资源的模型训练方法和装置、电子设备和存储介质制造方法及图纸

技术编号:33730946 阅读:13 留言:0更新日期:2022-06-08 21:26
本申请提供了一种基于GPU资源的模型训练方法和装置、电子设备和存储介质,其中,该方法包括:获取开发环境创建信息;根据开发环境创建信息,采用目标CPU资源创建得到目标开发环境;通过目标开发环境获取目标待训练模型;确定目标待训练模型所需的GPU资源需求量;在GPU资源池中存在满足GPU资源需求量的可用GPU资源的情况下,根据可用GPU资源对目标待训练模型进行训练,其中,可用GPU资源是未执行训练任务的GPU资源。通过本申请,通过对目标待训练模型的开发采用CPU资源进行开发,GPU资源只用于对目标待训练模型的训练方式,达到了将目标待训练模型的开发与GPU资源进行解耦的目的,进而可以克服相关技术中GPU资源使用效率低,容易出现GPU资源不够用的技术问题。易出现GPU资源不够用的技术问题。易出现GPU资源不够用的技术问题。

【技术实现步骤摘要】
基于GPU资源的模型训练方法和装置、电子设备和存储介质


[0001]本申请涉及人工智能
,尤其涉及一种基于GPU资源的模型训练方法和装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能的兴起,人工智能平台的构建成为了智能互联网建设的重要一环。人工智能平台是集人工智能算法的开发和训练,以及模型的保存与发布为一体的综合服务平台。当算法工程师使用平台时,首先会在人工智能平台单独创建一个能够保证代码开发和实时运行的开发环境,由于越来越多的人工智能技术是基于图形处理器(Graphics Processing Unit,GPU)而实现的,所以为了保证其编写的训练代码能够更高效的运行,算法工程师在人工智能平台创建的开发环境时往往会使用GPU,这就要求人工智能平台具有足够数量的GPU机器,从而蹭加了平台的运维成本。
[0003]在相关技术中,随着算法工程师在平台上创建的开发环境越来越多,以及采用开发环境和GPU绑定的技术会造成GPU资源使用效率低,进而容易出现GPU卡不够用的问题。
[0004]因此,相关技术中存在GPU资源使用效率低的问题。

技术实现思路

[0005]本申请提供了一种基于GPU资源的模型训练方法和装置、电子设备和存储介质,以至少解决相关技术中存在GPU资源使用效率低的问题。
[0006]根据本申请实施例的一个方面,提供了一种基于GPU资源的模型训练方法,包括:
[0007]获取开发环境创建信息;
[0008]根据所述开发环境创建信息,采用目标CPU资源创建得到目标开发环境;
[0009]通过所述目标开发环境获取目标待训练模型;
[0010]确定所述目标待训练模型所需的GPU资源需求量;
[0011]在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下,根据所述可用GPU资源对所述目标待训练模型进行训练,其中,所述可用GPU资源是未执行训练任务的GPU资源。
[0012]可选地,如前述的方法,所述根据所述开发环境创建信息,采用目标CPU资源创建得到目标开发环境,包括:
[0013]响应于所述开发环境创建信息中的创建指令,并根据所述开发环境创建信息中的目标CPU资源参数,在CPU资源池中获取所述目标CPU资源;
[0014]通过在所述目标CPU资源中安装所述开发环境创建信息中的目标软件,创建得到所述目标开发环境。
[0015]可选地,如前述的方法,在所述在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下,根据所述可用GPU资源对所述目标待训练模型进行训练之前,所述方法还包括:
[0016]获取当前待训练的所有候选待训练模型,其中,所述所有候选待训练模型中包括所述目标待训练模型;
[0017]对所有所述候选待训练模型进行排序,确定与每个所述候选待训练模型对应的训练次序;
[0018]在所述目标待训练模型对应的所述训练次序为第一的情况下,执行用于跳转至所述在GPU资源池中的存在满足所述目标待训练模型的GPU资源需求量的可用GPU资源的情况下,根据所述可用GPU资源对所述待训练模型进行训练的步骤的跳转操作。
[0019]可选地,如前述的方法,所述在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下,根据所述可用GPU资源对所述目标待训练模型进行训练包括:
[0020]在GPU资源池中的存在满足所述目标待训练模型的GPU资源需求量的可用GPU资源的情况下,获取所述开发环境创建信息中的数据地址,其中,所述数据地址为用于对所述目标待训练模型进行训练的训练参数的地址;
[0021]按照所述数据地址,获取所述训练参数;
[0022]在所述可用GPU资源中,选择出与所述GPU资源需求量一致的目标GPU资源;
[0023]采用所述目标GPU资源,并通过所述训练参数对所述目标待训练模型进行训练。
[0024]可选地,如前述的方法,在所述在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下,根据所述可用GPU资源对所述目标待训练模型进行训练之后,所述方法还包括:
[0025]按照固定周期获取与所述目标GPU资源对应的目标负载信息,其中,所述目标负载信息用于指示所述目标GPU资源对所述目标待训练模型进行训练的完成程度;
[0026]在所述目标负载信息指示所述目标待训练模型已完成训练的情况下,获取所述目标待训练模型的训练结果;
[0027]根据所述目标待训练模型对应的地址信息,将所述训练结果返回到所述目标开发环境,其中,所述地址信息为用于从所述目标开发环境获取所述目标待训练模型的地址。
[0028]可选地,如前述的方法,所述根据所述目标待训练模型对应的目标标识,将所述训练结果返回到所述目标开发环境之后,所述方法还包括:
[0029]对所述目标GPU资源中的所有数据进行删除,并将所述目标GPU资源的状态确定为可用。
[0030]可选地,如前述的方法,所述通过所述目标开发环境获取待训练模型包括:
[0031]通过所述目标开发环境接收目标对象的编译操作;
[0032]获取所述目标对象完成所述编译操作后得到的所述目标待训练模型。
[0033]根据本申请实施例的另一个方面,还提供了一种基于GPU资源的模型训练装置,包括:
[0034]第一获取模块,用于获取开发环境创建信息;
[0035]创建模块,用于根据所述开发环境创建信息,采用目标CPU资源创建得到目标开发环境;
[0036]第二获取模块,用于通过所述目标开发环境获取目标待训练模型;
[0037]确定模块,用于确定所述目标待训练模型所需的GPU资源需求量;
[0038]训练模块,用于在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情
况下,根据所述可用GPU资源对所述目标待训练模型进行训练,其中,所述可用GPU资源是未执行训练任务的GPU资源。
[0039]根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
[0040]根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
[0041]在本申请实施例中,通过对目标待训练模型的开发采用CPU资源进行开发,GPU资源只用于对目标待训练模型的训练方式,进而达到了将目标待训练模型的开发与GPU资源进行解耦的目的,使得目标待训练模型的开发无需占用GPU资源,进而可以提升GPU资源的使用率,在待训练模型数量较多,且所需的GPU资源多于GPU资源池中的所有GP本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于GPU资源的模型训练方法,其特征在于,包括:获取开发环境创建信息;根据所述开发环境创建信息,采用目标CPU资源创建得到目标开发环境;通过所述目标开发环境获取目标待训练模型;确定所述目标待训练模型所需的GPU资源需求量;在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下,根据所述可用GPU资源对所述目标待训练模型进行训练,其中,所述可用GPU资源是未执行训练任务的GPU资源。2.根据权利要求1所述的方法,其特征在于,所述根据所述开发环境创建信息,采用目标CPU资源创建得到目标开发环境,包括:响应于所述开发环境创建信息中的创建指令,并根据所述开发环境创建信息中的目标CPU资源参数,在CPU资源池中获取所述目标CPU资源;通过在所述目标CPU资源中安装所述开发环境创建信息中的目标软件,创建得到所述目标开发环境。3.根据权利要求1所述的方法,其特征在于,在所述在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下,根据所述可用GPU资源对所述目标待训练模型进行训练之前,所述方法还包括:获取当前待训练的所有候选待训练模型,其中,所述所有候选待训练模型中包括所述目标待训练模型;对所有所述候选待训练模型进行排序,确定与每个所述候选待训练模型对应的训练次序;在所述目标待训练模型对应的所述训练次序为第一的情况下,执行用于跳转至所述在GPU资源池中的存在满足所述目标待训练模型的GPU资源需求量的可用GPU资源的情况下,根据所述可用GPU资源对所述待训练模型进行训练的步骤的跳转操作。4.根据权利要求1所述的方法,其特征在于,所述在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下,根据所述可用GPU资源对所述目标待训练模型进行训练包括:在GPU资源池中的存在满足所述目标待训练模型的GPU资源需求量的可用GPU资源的情况下,获取所述开发环境创建信息中的数据地址,其中,所述数据地址为用于对所述目标待训练模型进行训练的训练参数的地址;按照所述数据地址,获取所述训练参数;在所述可用GPU资源中,选择出与所述GPU资源需求量一致的目标GPU资源;采用所述目标GPU资源,并通过所述训练参数对所述目标待训练模型进行训练。5.根据权利要求4所述的方法,其特征...

【专利技术属性】
技术研发人员:任文龙徐雪梅
申请(专利权)人:北京金山云网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1