一种基于交错执行的深度学习训练作业组合调度系统技术方案

技术编号：43776903 阅读：23 留言：0更新日期：2024-12-24 16:14

本公开提供一种基于交错执行的深度学习训练作业组合调度系统。包括深度学习训练作业控制器、作业组合调度器、作业组交错执行控制器三个组件，以及作业组交错执行的执行器；对于用户提交的深度学习训练作业，系统首先通过训练作业控制器创建Profile任务采集作业的运行时资源使用特征数据并输入作业组合调度器，作业组合调度器根据资源使用特征经过自定义的组合调度算法输出作业组配置的组合结果以及作业组选择节点类型到作业组交错执行控制器，最后由作业组交错执行控制器根据调度结果创建作业组训练任务控制作业组交错执行的执行器进行作业执行。相比单个训练作业独占资源的分布式训练模式，交错执行共享资源的运行机制，能够显著提升作业的执行效率。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及云计算与分布式系统领域，更具体地讲，涉及一种基于交错执行的深度学习训练作业组合调度系统。

技术介绍

1、随着智能制造、自动驾驶、智慧医疗等领域的不断发展和产业落地，人工智能应用的开发部署对算力的需求不断增加。以cpu为代表的通用计算体系和集群系统无法满足计算密集型、高度并行化的深度学习训练作业的算力需求。随着以容器为代表的云原生技术快速发展，在公用化云原生环境中部署与托管应用成为了企业it架构的和运营的新常态。但是当前全球数据中心整体的资源利用率近为10～20％。

2、随着硬件技术的发展，在集群中单个运行的深度学习训练作业通常无法充分使用独占的硬件件资源。深度学习训练作业在运行的过程中通常是多轮迭代的执行模式，每轮迭代中又分为多个不同的阶段，这些阶段存在不同的资源瓶颈，例如数据加载阶段主要利用磁盘io与cpu资源、前向反向传播计算阶段主要使用gpu资源、梯度同步阶段主要利用网络资源。这也导致了深度学习训练的过程中通常呈现多维度的资源周期性占用与闲置，进而导致计算集群中大量的资源空闲。

3、目前工业界与学...

【技术保护点】

1.一种基于交错执行的深度学习训练作业组合调度系统，其特征在于，包括深度学习训练作业控制器、作业组合调度器、作业组交错执行控制器三个组件，以及作业组交错执行的执行器；

2.如权利要求1所述的一种基于交错执行的深度学习训练作业组合调度系统，其特征在于，所述深度学习训练作业控制器用于管理用户提交的作业执行过程；用户通过MLJobCRD模版提交训练任务，MLJob CRD的Spec模版定义用户提交的深度学习训练作业类型、训练所需的超参数以及系统资源需求约束；用户提交的深度学习训练作业实例需要包含进行深度学学习训练的模型类型、批大小、学习率、迭代轮次、学习率、数据集、GPU数量需求以...

【技术特征摘要】

2.如权利要求1所述的一种基于交错执行的深度学习训练作业组合调度系统，其特征在于，所述深度学习训练作业控制器用于管理用户提交的作业执行过程；用户通过mljobcrd模版提交训练任务，mljob crd的spec模版定义用户提交的深度学习训练作业类型、训练所需的超参数以及系统资源需求约束；用户提交的深度学习训练作业实例需要包含进行深度学学习训练的模型类型、批大小、学习率、迭代轮次、学习率、数据集、gpu数量需求以及期望完成时间；crd的status状态模版定义用户提交作业的运行状态，包含作业当前处于的阶段，profile任务作业子状态；

3.如权利要求2所述的一种基于交错执行的深度学习训练作业组合调度系统，其特征在于，所述作业组合调度器负责将系统中等待调度的深度学习训练作业资源mljob组合成作业组jobpack资源，并为作业组分配及集群的节点资源，维护系统中全部的作业运行视图，所述作业组合调度器分为事件分发、组合调度、资源清理三个模块；

4.如权利要求3所述的一种基于...

【专利技术属性】
技术研发人员：杨任宇，叶天宇，姜维翰，沃天宇，张艺辉，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人