用于算力调度的任务模型训练方法及算力调度方法和系统技术方案

技术编号：40626451 阅读：10 留言：0更新日期：2024-03-13 21:13

本发明专利技术提供一种用于算力调度的任务模型训练方法及算力调度方法和系统，所述算力调度方法包括：获取当前待调度的任务，所述任务包括任务类型以及为所述任务的执行所申请的第一资源使用量；根据训练得到的任务模型，在不影响任务性能或在可接受的范围内的条件下，对第一资源使用量中的对任务性能影响小的资源的申请配额进行动态伸缩调整，得到为所述任务的执行所分配的资源使用量；根据所述分配的资源使用量对所述任务进行算力调度。本发明专利技术能够综合多维度资源对任务性能的影响完成自适应资源动态调度，有效提升AI算力调度中任务部署完成情况和多维度资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及云计算领域，具体涉及云计算的技术资源调度领域，尤其涉及用于算力调度的任务模型训练方法及算力调度方法和系统。

技术介绍

1、随着近年来人工智能技术在生活中的广泛应用，越来越多的智能算力集群被构建。在云计算资源调度领域，提出人工智能(artificial intelligence,ai)算力的集群调度问题，用于解决ai算力资源的利用率和机器学习任务的部署效率问题，最终实现ai算力的计算效率增长。目前ai算力集群调度主要针对机器学习(machine learning,ml)任务特性进行分析，对ai算力中的图形处理器(graphics processing unit，gpu)资源的分配进行优化，从而提高ml任务性能或gpu资源利用率。例如，考虑ml任务在训练过程中周期性、抢占性和位置敏感性的特性用以指导gpu分配和共享，满足不同类型的训练任务需求的高效调度，并实现gpu资源利用率的提升。现有人工智能算力的资源调度方法通常只针对gpu资源这一单一维度设计调度策略，但实际的任务性能不是只考虑单一的gpu资源分配就能够决定，而是由多维度资源共同的作用下所决定的，所以现有调度方法的设计性能并不能在实际生产集群中得到完全实现。而且，这种ai算力调度方法不能充分利用ai集群中多个维度的整体资源，造成有限集群资源的浪费。

技术实现思路

1、为了解决上述问题，本专利技术提出结合机器学习方法构建的任务模型，并利用其对当前动态队列中的任务进行资源分配的伸缩调整，完成算力调度。

2、根

3、优选的，同一所述训练样本中的所述任务类型是相同的。

4、优选的，所述任务类型包括计算机视觉任务、自然语言处理任务、强化学习任务、图神经网络任务、推荐任务。

5、优选的，所述回归树的深度为10，采用的基学习器数量为100，学习率为0.1。

6、根据第二方面，本专利技术实施例提供一种算力调度的方法，包括：获取当前待调度的任务，所述任务包括任务类型以及为所述任务的执行所申请的第一资源使用量；根据第一方面中任一方法得到的任务模型，在不影响任务性能或在可接受的范围内的条件下，对第一资源使用量中的对任务性能影响小的资源的申请配额进行动态伸缩调整，得到为所述任务的执行所分配的资源使用量；根据所述分配的资源使用量对所述任务进行算力调度。

7、优选的，所述根据第一方面中任一方法得到的任务模型，在不影响任务性能或在可接受的范围内的条件下，对第一资源使用量中的对任务性能影响小的资源申请配额进行动态伸缩调整，得到为所述任务的执行所分配的资源使用量，包括：利用根据第一方面中任一方法得到的任务模型，根据所述任务类型和第一资源使用量，输出所述任务的第一预期执行时间；对所述资源维度中任务性能影响小的资源申请配额，在不影响任务性能或在可接受的范围内的条件下，进行伸缩调整，得到第二资源使用量；根据所述第二资源使用量，利用第一方面中任一方法得到的所述任务模型，输出所述任务的第二预期执行时间；在所述第一预期执行时间和所述第二预期执行时间的差异在预设的差异阈值之下时，将所述第二资源使用量作为所述分配的资源使用量。

8、优选的，还包括：若所述第一预期执行时间和所述第二预期执行时间的差异超出设定的差异阈值，则利用另一个资源伸缩率对所述资源维度中任务性能影响小的资源申请配额，进行资源伸缩调整。

9、优选的，还包括：在利用所有的所述资源伸缩率对所述资源维度进行资源伸缩调整后，所述第一预期执行时间与所述第二预期执行时间的执行时间差异均超出所述差异阈值时，则将所述第一资源使用量作为所述分配的资源使用量。

10、优选的，所述利用所述任务模型，针对所述资源维度执行设定资源伸缩率下的资源伸缩调整，得到第二资源使用量，包括：从所述资源维度中，筛选出对所述任务的执行时间影响程度小于设定的影响程度阈值的资源维度，作为待伸缩资源维度；针对所述待伸缩资源维度执行设定资源伸缩率下的资源伸缩调整，得到第二资源使用量。

11、根据第三方面，本专利技术实施例提供一种算力调度系统，包括：服务器、任务队列、调度器，其特征在于，还包括任务历史运行日志数据库和如第一方面中任一所述的任务模型；所述任务历史运行日志数据库用于收集并保存任务的历史数据，包括资源使用情况、执行时间、任务类型；所述任务模型用于对待调度的任务中的对任务性能影响小的资源的申请配额进行动态伸缩调整，以得到为所述任务的执行所分配的资源使用量。

12、根据第四方面，本专利技术实施例提供一种存储介质，存储介质中存储有计算机可执行指令，计算机可执行指令被处理器加载并执行时，实现如第一、第二方面中任一方法的步骤。

13、与现有技术相比，本专利技术的优点在于：

14、相比于当前局限于面向gpu资源分配而设计的ai算力调度方法，本专利技术调度方法能够综合多维度资源对任务性能的影响完成自适应资源动态调度，有效提升ai算力调度中任务部署完成情况和多维度资源利用率。这种动态调整资源需求的方法，可以优化在用户任务申请过程中出现的资源超额申请问题，降低资源浪费。同时，该方法也优化了由于各维度资源之间的不匹配，导致ml任务部分维度资源的低效利用，提升ai算力的整体资源利用效率。

本文档来自技高网...

【技术保护点】

1.一种用于算力调度的任务模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，同一所述训练样本中的所述任务类型是相同的。

3.根据权利要求2所述的方法，其特征在于，所述任务类型包括计算机视觉任务、自然语言处理任务、强化学习任务、图神经网络任务、推荐任务。

4.根据权利要求1所述的方法，其特征在于，所述回归树的深度为10，采用的基学习器数量为100，学习率为0.1。

5.一种算力调度的方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据权利要求1至4中任一方法得到的任务模型，在不影响任务性能或在可接受的范围内的条件下，对第一资源使用量中的对任务性能影响小的资源申请配额进行动态伸缩调整，得到为所述任务的执行所分配的资源使用量，包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求6所述的方法，其特征在于，还包括：

9.根据权利要求6所述的方法，其特征在于，所述利用所述任务模型，针对所述资源维度执行设定资源伸缩率下的资源

10.一种算力调度系统，包括：服务器、任务队列、调度器，其特征在于，还包括任务历史运行日志数据库和如权利要求1到4中任一所述的任务模型；

11.一种存储介质，其特征在于，存储介质中存储有计算机可执行指令，计算机可执行指令被处理器加载并执行时，实现如权利要求1至9中任一方法的步骤。

...

【技术特征摘要】

1.一种用于算力调度的任务模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，同一所述训练样本中的所述任务类型是相同的。

3.根据权利要求2所述的方法，其特征在于，所述任务类型包括计算机视觉任务、自然语言处理任务、强化学习任务、图神经网络任务、推荐任务。

4.根据权利要求1所述的方法，其特征在于，所述回归树的深度为10，采用的基学习器数量为100，学习率为0.1。

5.一种算力调度的方法，其特征在于，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据权利要求1至4中任一方法得到的任务模型，在不影响任务性能或在可接受的范围内的条件下，对第一资源使用量中的对任务性能影响小...

【专利技术属性】
技术研发人员：杨明烜，洪学海，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人