用于深度学习框架的资源调度方法和装置制造方法及图纸

技术编号：18018752 阅读：32 留言：0更新日期：2018-05-23 05:05

本申请公开了一种用于深度学习框架的资源调度方法和装置。方法包括：间隔预定时间，从Kubernetes平台查询所有的深度学习作业对象的状态；响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象，向Kubernetes平台提交资源请求，以调度Kubernetes平台所处的物理机启动深度学习训练任务。该方法能够完全自动化处理深度学习训练任务的资源分配与释放。

全部详细技术资料下载

【技术实现步骤摘要】
用于深度学习框架的资源调度方法和装置
本申请涉及计算机
，具体涉及计算机网络
，尤其涉及用于深度学习框架的资源调度方法和装置。
技术介绍
在深度学习领域，算法模型的训练任务一般基于深度学习框架实现，目前流行的深度学习框架有张量流人工智能学习系统(Tensorflow)，并行分布式深度学习开源平台(PaddlePaddle)，用于快速特征嵌入的卷积结构(Caffe)等等。众多的深度学习框架各有特点，开发人员在面对具体场景时选择实现模型的框架也因此不同。但不管基于哪一种框架来训练模型，运行训练任务的过程都离不开资源管理和任务调度，也即是统一管理服务器集群的CPU、内存、GPU等计算资源，根据训练任务的资源需求分配资源容器；同时，随着训练任务的运行和终止，对占用的计算资源进行实时的分配和回收。目前，可以采用Kubernetes平台实现对多深度学习框架的支持。在Kubernetes平台，开发者运行一个模型训练任务，需要开发者介入Kubernetes平台的资源管理工作，从平台申请到预期的计算资源容器，再申请不同的网络策略来配合训练任务的运行。
技术实现思路
本申请实施例提出一种用于深度学习框架的资源调度方法和装置。第一方面，本申请实施例提供了一种用于深度学习框架的资源调度方法，包括：间隔预定时间，从Kubernetes平台查询所有的深度学习作业对象的状态；响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象，向Kubernetes平台提交资源请求，以调度Kubernetes平台所处的物理机启动深度学习训练任务。在一些实施例中，深度学...
用于深度学习框架的资源调度方法和装置

【技术保护点】
一种用于深度学习框架的资源调度方法，包括：间隔预定时间，从Kubernetes平台查询所有的深度学习作业对象的状态；响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象，向所述Kubernetes平台提交资源请求，以调度所述Kubernetes平台所处的物理机启动所述深度学习训练任务。

【技术特征摘要】
1.一种用于深度学习框架的资源调度方法，包括：间隔预定时间，从Kubernetes平台查询所有的深度学习作业对象的状态；响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象，向所述Kubernetes平台提交资源请求，以调度所述Kubernetes平台所处的物理机启动所述深度学习训练任务。2.根据权利要求1所述的资源调度方法，其中，所述深度学习作业对象包括：节点组父属性；设于所述节点组父属性下的镜像子属性；以及设于所述节点组父属性下的资源配置子属性。3.根据权利要求2所述的资源调度方法，其中，所述响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象，向所述Kubernetes平台提交资源请求包括：响应于从各个深度学习作业对象中查询到状态符合新创建状态的深度学习作业对象，提取所述状态符合新创建状态的深度学习作业对象的资源配置子属性；基于提取的资源配置子属性，向所述Kubernetes平台的应用程序接口服务器服务发送资源请求，以申请容器资源和网络策略。4.根据权利要求1所述的资源调度方法，其中，所述响应于从各个深度学习作业对象中查询到状态符合提交资源请求状态的深度学习作业对象，向所述Kubernetes平台提交资源请求包括：响应于从各个深度学习作业对象中查询到状态符合终止状态的深度学习作业对象，回收所述状态符合终止状态的深度学习作业对象的资源。5.根据权利要求1所述的资源调度方法，其中，所述调度所述Kubernetes平台所处的物理机启动所述深度学习训练任务包括：经由所述Kubernetes平台的应用程序接口服务器服务接收所述资源请求，创建资源对象；经由所述Kubernetes平台的调度器服务异步监听所创建的资源对象，将所述所创建的资源对象分配至从节点；经由所述从节点运行所述资源对象对应的容器以完成所述深度学习训练任务。6.一种用于深度学习框架的资源调度装置，包括：查询单元，用于间隔预定时间，从Kubernetes平台查询所有的...

【专利技术属性】
技术研发人员：刘昆，周恺，王倩，肖远昊，刘岚，徐东泽，许天涵，郭江亮，唐进，张发恩，尹世明，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人