一种深度学习方法、装置及系统制造方法及图纸

技术编号:24852660 阅读:31 留言:0更新日期:2020-07-10 19:06
本发明专利技术提供一种深度学习方法、装置及系统,其中,所述深度学习方法包括:获取用户提交的深度学习任务;将所述深度学习任务分配到与所述深度学习任务的类型对应的任务队列中;调度第一资源子集群中的资源,执行第一任务队列中的深度学习任务;通过大数据平台的控制节点,调度第二资源子集群中的资源,执行第二任务队列中的深度学习任务;所述第一任务队列中的深度学习任务的类型是非基于大数据平台,所述第二任务队列中的深度学习任务的类型是基于大数据平台。本发明专利技术的实施例,可以在支持绝大多数深度学习框架的同时,很好地兼容大数据平台,降低调用大数据平台上的数据时的网络开销。

【技术实现步骤摘要】
一种深度学习方法、装置及系统
本专利技术涉及云计算
,尤其涉及一种深度学习方法、装置及系统。
技术介绍
目前,图形处理器(GraphicsProcessingUnit,GPU)由于强大的计算能力,被广泛用于人工智能相关领域,特别是深度学习相关算法任务中,GPU可大大加速模型的训练和推理速度。对于较大规模的数据或者较大的模型,经过单个GPU甚至单机多个GPU加速后仍然需要耗费较长的计算时间,因此GPU服务器集群是人工智能算法研究与应用中不可或缺的组成部分。Kubernetes(K8s)是目前主流的容器编排与管理工具,是容器化、微服务时代的重要技术之一,社区强大,发展迅速,目前已经有效地支持了CPU、内存、GPU等资源的隔离与调度。具体的,K8s-Docker是目前多数集群式深度学习系统采用的资源调度方案,在深度学习开源框架的支持上具有先天的优势,但是,K8s-Docker方案无法有效兼容传统的大数据平台比如Hadoop,调用大数据平台上的数据比较复杂,需要较多的网络开销。
技术实现思路
>本专利技术实施例提本文档来自技高网...

【技术保护点】
1.一种深度学习方法,其特征在于,包括:/n获取用户提交的深度学习任务;/n将所述深度学习任务分配到与所述深度学习任务的类型对应的任务队列中;/n调度第一资源子集群中的资源,执行第一任务队列中的深度学习任务;/n通过大数据平台的控制节点,调度第二资源子集群中的资源,执行第二任务队列中的深度学习任务;/n其中,所述第一任务队列中的深度学习任务的类型是非基于大数据平台,所述第二任务队列中的深度学习任务的类型是基于大数据平台。/n

【技术特征摘要】
1.一种深度学习方法,其特征在于,包括:
获取用户提交的深度学习任务;
将所述深度学习任务分配到与所述深度学习任务的类型对应的任务队列中;
调度第一资源子集群中的资源,执行第一任务队列中的深度学习任务;
通过大数据平台的控制节点,调度第二资源子集群中的资源,执行第二任务队列中的深度学习任务;
其中,所述第一任务队列中的深度学习任务的类型是非基于大数据平台,所述第二任务队列中的深度学习任务的类型是基于大数据平台。


2.根据权利要求1所述的方法,其特征在于,所述通过大数据平台的控制节点,调度第二资源子集群中的资源,执行第二任务队列中的深度学习任务,包括:
将所述第二任务队列中的深度学习任务提交给所述大数据平台的控制节点,由所述大数据平台的控制节点,调度所述第二资源子集群中的资源,执行所述第二任务队列中的深度学习任务。


3.根据权利要求1所述的方法,其特征在于,所述执行第一任务队列中的深度学习任务,包括:
按照先进先出的方式依次执行所述第一任务队列中的深度学习任务;
和/或,
所述执行第二任务队列中的深度学习任务,包括:
按照先进先出的方式依次执行所述第二任务队列中的深度学习任务。


4.根据权利要求1所述的方法,其特征在于,当所述第一资源子集群中的资源无法满足所述第一任务队列中的深度学习任务的需求时,所述方法还包括:
调度第三资源子集群中的资源,执行所述第一任务队列中的深度学习任务;
或者,
当所述第二资源子集群中的资源无法满足所述第二任务队列中的深度学习任务的需求时,所述方法还包括:
接收所述大数据平台的控制节点发送的资源请求消息;
根据所述资源请求消息,从第四资源子集群中选取资源分配至所述第二资源子集群中;
通过所述大数据平台的控制节点,调度分配资源后的第二资源子集群中的资源,执行所述第二任务队...

【专利技术属性】
技术研发人员:丛鹏宇
申请(专利权)人:中国移动通信有限公司研究院中国移动通信集团有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1