【技术实现步骤摘要】
任务处理方法、装置及存储介质
[0001]本申请涉及大数据领域,尤其涉及一种任务处理方法、装置及存储介质。
技术介绍
[0002]随着大数据技术的发展,神经网络参数的规模越来越大,深度学习训练的周期也越来越长。在执行训练任务时,可使用多图形处理器(graphics processing unit,GPU)卡加速训练的方式以应对大数据及大模型的训练需求。
[0003]目前,Kubernetes(K8s)集群可以实现GPU卡加速训练,例如,可以在K8s集群中大规模部署GPU服务器执行深度学习任务。但是,在利用K8s集群进行任务训练时,经常出现一些训练任务异常的情况。
技术实现思路
[0004]本申请提供一种任务处理方法、装置及存储介质,用以解决多机多卡训练任务的待调度时,排队时间过长的问题。
[0005]第一方面,本申请提供一种任务处理方法,任务处理方法应用于计算集群,计算集群包括多个计算节点;任务处理方法包括:
[0006]当目标任务在待调度队列中的排队时间大于阈值时,在多个计算节点中确 ...
【技术保护点】
【技术特征摘要】
1.一种任务处理方法,其特征在于,应用于计算集群,所述计算集群包括多个计算节点;所述方法包括:当目标任务在待调度队列中的排队时间大于阈值时,在所述多个计算节点中确定N个目标计算节点;所述目标任务为执行时需要多个计算节点的算力的任务,所述N为大于或等于2的整数;在所述目标任务被调度时,利用所述N个目标计算节点执行所述目标任务。2.根据权利要求1所述的方法,其特征在于,所述目标任务的资源清单文件包括容忍参数,所述方法还包括:将所述N个目标计算节点添加污点标记;所述污点标记与所述容忍参数有关。3.根据权利要求2所述的方法,其特征在于,在所述目标任务被调度时,利用所述N个目标计算节点执行所述目标任务,包括:在所述目标任务被调度时,查找与所述容忍参数匹配的污点标记所对应的N个目标计算节点;利用所述N个目标计算节点执行所述目标任务。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:在所述目标任务被调度完毕时,删除所述N个目标计算节点的污点标记。5.根据权利要求2
‑
4任一项所述的方法,其特征在于,所述容忍参数与所述污点标记均包括键名key、键值value和效果effect。6.根据权利要求5所述的方法,其特征在于,所述方法还包括:获取所述待调度队列中提交时间最早且带有容忍参数的任务,得到所述目标任务。7.根据权利要求1
‑
4任一项所述的方法,其特征在于,所述目标任务的资源清单文件包括任务规模;在所述多个计算节点中确定N个目标计算节点,包括:根据所述任务规模确定需要的机柜数量M;其中...
【专利技术属性】
技术研发人员:尹雷,董建波,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。