基于GPU资源的模型训练方法和装置、电子设备和存储介质制造方法及图纸

技术编号：33730946 阅读：13 留言：0更新日期：2022-06-08 21:26

本申请提供了一种基于GPU资源的模型训练方法和装置、电子设备和存储介质，其中，该方法包括：获取开发环境创建信息；根据开发环境创建信息，采用目标CPU资源创建得到目标开发环境；通过目标开发环境获取目标待训练模型；确定目标待训练模型所需的GPU资源需求量；在GPU资源池中存在满足GPU资源需求量的可用GPU资源的情况下，根据可用GPU资源对目标待训练模型进行训练，其中，可用GPU资源是未执行训练任务的GPU资源。通过本申请，通过对目标待训练模型的开发采用CPU资源进行开发，GPU资源只用于对目标待训练模型的训练方式，达到了将目标待训练模型的开发与GPU资源进行解耦的目的，进而可以克服相关技术中GPU资源使用效率低，容易出现GPU资源不够用的技术问题。易出现GPU资源不够用的技术问题。易出现GPU资源不够用的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于GPU资源的模型训练方法和装置、电子设备和存储介质

[0001]本申请涉及人工智能
，尤其涉及一种基于GPU资源的模型训练方法和装置、电子设备和存储介质。

技术介绍

[0002]随着人工智能的兴起，人工智能平台的构建成为了智能互联网建设的重要一环。人工智能平台是集人工智能算法的开发和训练，以及模型的保存与发布为一体的综合服务平台。当算法工程师使用平台时，首先会在人工智能平台单独创建一个能够保证代码开发和实时运行的开发环境，由于越来越多的人工智能技术是基于图形处理器(Graphics Processing Unit，GPU)而实现的，所以为了保证其编写的训练代码能够更高效的运行，算法工程师在人工智能平台创建的开发环境时往往会使用GPU，这就要求人工智能平台具有足够数量的GPU机器，从而蹭加了平台的运维成本。
[0003]在相关技术中，随着算法工程师在平台上创建的开发环境越来越多，以及采用开发环境和GPU绑定的技术会造成GPU资源使用效率低，进而容易出现GPU卡不够用的问题。
[0004]因此，相关技术中存在GPU资源使用效率低的问题。

技术实现思路

[0005]本申请提供了一种基于GPU资源的模型训练方法和装置、电子设备和存储介质，以至少解决相关技术中存在GPU资源使用效率低的问题。
[0006]根据本申请实施例的一个方面，提供了一种基于GPU资源的模型训练方法，包括：
[0007]获取开发环境创建信息；
[0008]根据所述开发环境创建信息，采用目标C...

【技术保护点】

【技术特征摘要】
1.一种基于GPU资源的模型训练方法，其特征在于，包括：获取开发环境创建信息；根据所述开发环境创建信息，采用目标CPU资源创建得到目标开发环境；通过所述目标开发环境获取目标待训练模型；确定所述目标待训练模型所需的GPU资源需求量；在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下，根据所述可用GPU资源对所述目标待训练模型进行训练，其中，所述可用GPU资源是未执行训练任务的GPU资源。2.根据权利要求1所述的方法，其特征在于，所述根据所述开发环境创建信息，采用目标CPU资源创建得到目标开发环境，包括：响应于所述开发环境创建信息中的创建指令，并根据所述开发环境创建信息中的目标CPU资源参数，在CPU资源池中获取所述目标CPU资源；通过在所述目标CPU资源中安装所述开发环境创建信息中的目标软件，创建得到所述目标开发环境。3.根据权利要求1所述的方法，其特征在于，在所述在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下，根据所述可用GPU资源对所述目标待训练模型进行训练之前，所述方法还包括：获取当前待训练的所有候选待训练模型，其中，所述所有候选待训练模型中包括所述目标待训练模型；对所有所述候选待训练模型进行排序，确定与每个所述候选待训练模型对应的训练次序；在所述目标待训练模型对应的所述训练次序为第一的情况下，执行用于跳转至所述在GPU资源池中的存在满足所述目标待训练模型的GPU资源需求量的可用GPU资源的情况下，根据所述可用GPU资源对所述待训练模型进行训练的步骤的跳转操作。4.根据权利要求1所述的方法，其特征在于，所述在GPU资源池中存在满足所述GPU资源需求量的可用GPU资源的情况下，根据所述可用GPU资源对所述目标待训练模型进行训练包括：在GPU资源池中的存在满足所述目标待训练模型的GPU资源需求量的可用GPU资源的情况下，获取所述开发环境创建信息中的数据地址，其中，所述数据地址为用于对所述目标待训练模型进行训练的训练参数的地址；按照所述数据地址，获取所述训练参数；在所述可用GPU资源中，选择出与所述GPU资源需求量一致的目标GPU资源；采用所述目标GPU资源，并通过所述训练参数对所述目标待训练模型进行训练。5.根据权利要求4所述的方法，其特征...

【专利技术属性】
技术研发人员：任文龙，徐雪梅，
申请(专利权)人：北京金山云网络技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人