【技术实现步骤摘要】
一种训练任务处理方法、装置、设备及可读存储介质
本申请涉及深度学习
,更具体地说,涉及一种训练任务处理方法、装置、设备及计算机可读存储介质。
技术介绍
深度学习需依赖深度学习平台进行训练任务的训练和学习,其中,该平台可以为众多用户提供训练任务提交服务和处理服务。目前,深度学习平台在接收到用户提交的训练任务时,若训练任务在训练时所需占用的资源大于深度学习平台的当前可用资源,则该平台会直接拒绝用户提交训练任务,而这种情况后续会出现深度学习平台当前可用资源能够进行训练任务的处理但因其没有及时接收到训练任务而导致其自身处于闲置状态,从而会造成深度学习平台资源的浪费,并会造成时间的浪费。综上所述,如何降低深度学习平台的闲置率,以减少深度学习平台资源和时间的浪费,是目前本领域技术人员亟待解决的技术问题。
技术实现思路
有鉴于此,本申请的目的是提供一种训练任务处理方法、装置、设备及计算机可读存储介质,用于降低深度学习平台的闲置率,以减少深度学习平台资源和时间的浪费。为了实现上述目的,本申请提供如下技术方案:一种训练任务处理方法,应用在深度学习平台中,包括:接收训练任务并获取所述训练任务的任务属性;其中,所述任务属性包括所述训练任务在训练时的资源占用量、启动脚本;判断所述资源占用量是否小于或等于所述深度学习平台的当前可用资源量,若大于所述当前可用资源量,则判断所述资源占用量与所述当前可用资源量的比值是否小于预设值;若小于所述预设值,则将所述任务属性中的 ...
【技术保护点】
1.一种训练任务处理方法,其特征在于,应用在深度学习平台中,包括:/n接收训练任务并获取所述训练任务的任务属性;其中,所述任务属性包括所述训练任务在训练时的资源占用量、启动脚本;/n判断所述资源占用量是否小于或等于所述深度学习平台的当前可用资源量,若大于所述当前可用资源量,则判断所述资源占用量与所述当前可用资源量的比值是否小于预设值;/n若小于所述预设值,则将所述任务属性中的启动脚本拆分成多个子启动脚本,并利用所述当前可用资源量依次对所述子启动脚本进行处理;其中,每个所述子启动脚本对应的子资源占用量均小于所述当前可用资源量;/n若不小于所述预设值,则将所述训练任务的任务属性存放在预先创建的队列中;获取所述深度学习平台的当前可用资源量,并对所述队列进行轮询,以确定所述队列中是否存在资源占用量小于或等于所述当前可用资源量的目标任务属性;若存在所述目标任务属性,则将所述目标任务属性中所述队列中移除,并对所述目标任务属性进行处理。/n
【技术特征摘要】
1.一种训练任务处理方法,其特征在于,应用在深度学习平台中,包括:
接收训练任务并获取所述训练任务的任务属性;其中,所述任务属性包括所述训练任务在训练时的资源占用量、启动脚本;
判断所述资源占用量是否小于或等于所述深度学习平台的当前可用资源量,若大于所述当前可用资源量,则判断所述资源占用量与所述当前可用资源量的比值是否小于预设值;
若小于所述预设值,则将所述任务属性中的启动脚本拆分成多个子启动脚本,并利用所述当前可用资源量依次对所述子启动脚本进行处理;其中,每个所述子启动脚本对应的子资源占用量均小于所述当前可用资源量;
若不小于所述预设值,则将所述训练任务的任务属性存放在预先创建的队列中;获取所述深度学习平台的当前可用资源量,并对所述队列进行轮询,以确定所述队列中是否存在资源占用量小于或等于所述当前可用资源量的目标任务属性;若存在所述目标任务属性,则将所述目标任务属性中所述队列中移除,并对所述目标任务属性进行处理。
2.根据权利要求1所述的训练任务处理方法,其特征在于,利用所述当前可用资源量依次对所述子启动脚本进行处理,包括:
按照所述子启动脚本构成所述启动脚本的顺序利用所述当前可用资源量依次对所述子启动脚本进行处理。
3.根据权利要求2所述的训练任务处理方法,其特征在于,按照所述子启动脚本构成所述启动脚本的顺序利用所述当前可用资源量依次对所述子启动脚本进行处理,包括:
从未处理的所述子启动脚本中选取多个目标子启动脚本,并利用所述当前可用资源量对所述目标子启动脚本进行处理;其中,所述选取出的所述目标子启动脚本的子资源占用量之和小于或等于所述当前可用资源量;
待完成对所述目标子启动脚本的处理,以空闲出所述当前可用资源量之后,则返回所述从未处理的所述子启动脚本中选取多个目标子启动脚本的步骤,直至处理完所有的所述子启动脚本为止。
4.根据权利要求1所述的训练任务处理方法,其特征在于,在对所述队列进行轮询之前,还包括:
根据所述队列中各所述任务属性中的资源占用量计算各所述任务属性的分值,并按照分值由小到大的顺序对所述任务属性进行排列。
5.根据权利要求4所述的训练任务处理方法,其特征在于,当所述资源占用量包括CPU占用量、GPU占用量和内存占用量时,根据所述队列中各所述任务属性中的资源占用量计算各所述任务属性的分值,包括:
获取所述队列中各所述任务属性的CPU占用量之和、GPU占用量之和及内存占用...
【专利技术属性】
技术研发人员:王文潇,
申请(专利权)人:广东浪潮大数据研究有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。