任务调度方法及装置制造方法及图纸

技术编号：33715021 阅读：16 留言：0更新日期：2022-06-06 08:56

本申请实施例提供任务调度方法及装置，其方法包括：获取每个任务的统计数据和当前配置，统计数据包括任务在当前配置下各类型加速芯片的吞吐量，当前配置包括加速芯片类型、各类型加速芯片数量以及在各类型加速芯片上分配的线程数量，每个任务支持弹性训练；根据每个所述任务的统计数据、所述当前配置以及获取到的每个所述任务对应的最大线程数量，确定提案信息，所述提案信息用于表示为每个所述任务申请所需资源的提案；根据所述提案信息，对目标任务内的各个线程进行资源调度。解决了在针对弹性异构的、精度无损的深度学习训练任务场景下，存在负载不均衡和性能浪费的问题，进而提高集群利用率并提高作业效率。提高集群利用率并提高作业效率。提高集群利用率并提高作业效率。

全部详细技术资料下载

【技术实现步骤摘要】
任务调度方法及装置

[0001]本申请实施例涉及计算机
，尤其涉及一种任务调度方法及装置。

技术介绍

[0002]深度神经网络已经应用在很多广泛部署的系统中，横跨多个领域，包括计算机视觉、自然语言处理、语音识别，也可以包括推荐和广告等。因此，深度学习已经成为产品数据流中至关重要的一环。为了支持这种大规模的深度学习应用，一般都会构建大规模共享的加速芯片集群，用来执行多个深度学习任务。
[0003]然而，在这些共享加速芯片集群中观察发现，其实很多时候加速芯片资源仍然处于相对低的利用率状态，于此同时，有一些任务却仍在排队等待，整个集群的吞吐量并不很高。此外，由于资源共享也会导致任务的抢占。为了解决上述集群任务排队延迟长，抢占导致失败的问题，使训练任务适应弹性资源是一个很直接的方法。训练任务在支持弹性后可以尽快利用可用资源开始处理，消除因群调度而产生的强制性等待，并且在被抢占资源的时候使用剩余的资源继续训练，从而提高集群利用率，并减少任务完成时间。但是，这种弹性的方法有可能会带来难以复现的模型精度，并且任务在利用异构加速芯片时表现出不同的能力,这和加速芯片的理论计算能力不相称，并且线程的数量是离散的整数而加速芯片的计算能力是连续的实数，异构加速芯片通常没有被分配到与它们的计算能力成比例的线程数，这非常容易造成负载不均衡和性能浪费。
[0004]因此，现有技术中，在针对弹性异构的、精度无损的深度学习训练任务场景下，存在负载不均衡和性能浪费的问题，进而导致集群利用率较低且作业效率较低。

技术实现思路
...

【技术保护点】

【技术特征摘要】
1.一种任务调度方法，其特征在于，所述方法包括：获取每个任务的统计数据和当前配置，所述统计数据包括所述任务在当前配置下各类型加速芯片的吞吐量，所述当前配置包括加速芯片类型、各类型加速芯片数量以及在各类型加速芯片上分配的线程数量，每个所述任务支持弹性训练；根据每个所述任务的统计数据、所述当前配置以及获取到的每个所述任务对应的最大线程数量，确定提案信息，所述提案信息用于表示为每个所述任务申请所需资源的提案；根据所述提案信息，对目标任务内的各个线程进行资源调度，所述目标任务为所有所述任务中的至少一个任务。2.根据权利要求1所述的方法，其特征在于，所述根据每个所述任务的统计数据、所述当前配置以及获取到的每个所述任务对应的最大线程数量，确定提案信息，包括：根据每个所述任务在当前配置下各类型加速芯片的吞吐量，确定每个所述任务在当前配置下各类型加速芯片的计算能力；根据每个所述任务在当前配置下各类型加速芯片的计算能力、所述加速芯片类型、各类型加速芯片数量、各类型加速芯片上分配的线程数量以及获取到的每个所述任务对应的最大线程数量，确定提案信息。3.根据权利要求2所述的方法，其特征在于，所述根据每个所述任务在当前配置下各类型加速芯片的吞吐量，确定每个所述任务在当前配置下各类型加速芯片的计算能力，包括：针对每个所述任务执行下述步骤：将所述任务在当前配置下各类型加速芯片的吞吐量进行比例计算，得到各类型加速芯片的性能比例；将所述性能比例作为所述计算能力。4.根据权利要求2或3所述的方法，其特征在于，所述根据每个所述任务在当前配置下各类型加速芯片的计算能力、所述加速芯片类型、各类型加速芯片数量、各类型加速芯片上分配的线程数量以及获取到的每个所述任务对应的最大线程数量，确定提案信息，包括：针对每个所述任务执行下述步骤：根据所述加速芯片类型、所述各类型加速芯片数量、所述各类型加速芯片上分配的线程数量以及所述任务对应的最大线程数量，确定待提案配置下分配在增加后的各类型加速芯片上的目标线程数量；根据所述任务在当前配置下各类型加速芯片的计算能力、所述加速芯片类型、所述各类型加速芯片数量、增加后的加速芯片类型、所述增加后的各类型加速芯片总数量、各类型加速芯片上分配的线程数量、所述待提案配置下分配在增加后的各类型加速芯片上的目标线程数量以及所述任务对应的最大线程数量，确定当前配置下性能的浪费数据以及待提案配置下性能的浪费数据；根据所述任务在当前配置下各类型加速芯片的计算能力、所述各类型加速芯片数量、所述增加后的各类型加速芯片总数量、所述任务对应的最大线程数量、所述当前配置下性能的浪费数据、所述待提案配置下性能的浪费数据以及获取到的加速芯片数量与最大线程数量的各自影响因子，确定当前配置下通信开销和待提案配置下通信开销；根据所述任务在当前配置下各类型加速芯片的计算能力、所述各类型加速芯片数量、所述加速芯片类型、所述增加后的加速芯片类型、所述增加后的各类型加速芯片总数量、所
述当前配置下性能的浪费数据、所述待提案配置下性能的浪费数据、所述当前配置下通信开销和所述待提案配置下通信开销，确定提案信息。5.根据权利要求4所述的方法，其特征在于，所述根据所述加速芯片类型、所述各类型加速芯片数量、所述各类型加速芯片上分配的线程数量以及所述任务对应的最大线程数量，确定待提案配置下分配在增加后的各类型加速芯片上的目标线程数量，包括：根据所述加速芯片类型和各类型加速芯片数量，确定申请增加的目标加速芯片类型以及增加后的各类型加速芯片总数量；根据增加后的加速芯片类型、所述增加后的各类型加速芯片总数量、所述各类型加速芯片上分配的线程数量，确定待提案配置下分配在增加后的各类型加速芯片上的目标线程数量，并计算待提案中分配的线程之和；其中，所述待提案中分配的线程之和大于或等于所述任务对应的最大线程数量。6.根据权利要求4所述的方法，其特征在于，所述根据所述任务在当前配置下各类型加速芯片的计算能力、所述加速芯片类型、所述各类型加速芯片数量、增加后的加速芯片类型、所述增加后的各类型加速芯片总数量、各类型加速芯片上分配的线程数量、所述待提案配置下分配在增加...

【专利技术属性】
技术研发人员：李明真，肖文聪，孙彪，赵汉宇，杨海龙，任仕儒，栾钟治，刘佚，李永，钱德沛，林伟，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人