集群资源调度方法、装置、设备及计算机可读存储介质制造方法及图纸

技术编号:20865612 阅读:18 留言:0更新日期:2019-04-17 09:11
本发明专利技术公开了一种集群资源调度方法,包括:获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。本发明专利技术还公开了一种集群资源调度装置、设备及计算机可读存储介质。本发明专利技术能够提高GPU集群资源的利用率。

【技术实现步骤摘要】
集群资源调度方法、装置、设备及计算机可读存储介质
本专利技术涉及资源调度的
,尤其涉及一种集群资源调度方法、装置、设备及计算机可读存储介质。
技术介绍
随着机器学习的快速发展,机器学习被广泛应用于各个领域,机器学习需要训练模型,而模型的训练需要使用计算资源,目前,各大主流的机器学习或深度学习平台主要通过混合搭建集群的方式,为模型的训练的提供计算资源,该计算资源包括内存、CPU(CentralProcessingUnit,中央处理器)和GPU(GraphicsProcessingUnit,图形处理器)。然而,搭建的混合集群包含不同GPU显卡类型的机器,不同GPU显卡类型的计算能力存在差异,TeslaP40显卡和TeslaM40显卡的计算资源相差1.7倍左右,同时不同的模型训练任务需要的计算资源不同,而现有的资源平均分配方式,在分配计算资源时,存在模型训练任务需要的计算资源较少,而分配一块超出计算资源需求的GPU显卡的问题,造成资源浪费,资源的利用率不高,而其他GPU显卡资源不足导致阻塞。因此,如何提高GPU集群资源的利用率是目前亟待解决的问题。
技术实现思路
本专利技术的主要目的在于提供一种集群资源调度方法、装置、设备及计算机可读存储介质,旨在提高GPU集群资源的利用率。为实现上述目的,本专利技术提供一种集群资源调度方法,所述集群资源调度方法包括以下步骤:获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。进一步地,所述获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务的步骤之前,还包括:当监测到任务提交请求时,从所述任务提交请求中获取集群资源需求信息和第一GPU显卡类型标签,并存储所述集群资源需求信息;依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组。进一步地,依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组的步骤包括:获取所述任务执行队列组中各任务执行队列的第二GPU显卡类型标签;将各任务执行队列的第二GPU显卡类型标签与所述第一GPU显卡类型标签进行匹配;获取与所述第一GPU显卡类型标签匹配的第二GPU显卡类型标签,并将匹配到的所述第二GPU显卡类型标签所属的任务执行队列,确定为目标任务执行队列;将所述任务提交请求中的模型训练任务插入至所述目标任务执行队列。进一步地,依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源的步骤包括:生成携带有所述GPU显卡类型标签和所述集群资源需求信息的集群资源申请请求,并将所述集群资源申请请求发送至GPU集群资源管理中心;接收所述GPU集群资源管理中心基于所述集群资源申请请求中的GPU显卡类型标签和集群资源需求信息返回的集群资源申请结果。进一步地,依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源的步骤之后,还包括:当接收到所述GPU集群资源管理中心返回的集群资源申请结果时,判断所述集群资源申请结果是否为预设申请结果;若所述集群资源申请结果为预设申请结果,则向作业控制中心发送对应的任务执行请求,以供所述作业控制中心基于所述任务执行请求,执行对应的模型训练任务。进一步地,所述向作业控制中心发送对应的任务执行请求,以供所述作业控制中心基于所述任务执行请求,执行对应的模型训练任务的步骤包括:向作业控制中心发送对应的任务执行请求,以供所述作业控制中心从所述任务执行请求中获取GPU显卡类型标签、集群资源需求信息和模型训练任务,并依据所述GPU显卡类型标签和所述集群资源需求信息创建容器组;通过所述容器组执行所述模型训练任务,以训练对应的模型。此外,为实现上述目的,本专利技术还提供一种集群资源调度装置,所述集群资源调度装置包括:任务确定模块,用于获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;获取模块,用于获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;资源请求模块,用于依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。此外,为实现上述目的,本专利技术还提供一种集群资源调度设备,所述集群资源调度设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的集群资源调度程序,所述集群资源调度程序被所述处理器执行时实现如上所述的集群资源调度方法的步骤。本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有集群资源调度程序,所述集群资源调度程序被处理器执行时实现如上所述的集群资源调度方法的步骤。本专利技术提供一种集群资源调度方法、装置、设备及计算机可读存储介质,本专利技术获取任务执行队列组和预设的任务执行策略,并依据该任务执行策略,从该任务执行队列组中获取待执行的模型训练任务,然后获取该待执行的模型训练任务所属任务执行队列的GPU显卡类型标签,并获取该待执行的模型训练任务的集群资源需求信息,最后依据该GPU显卡类型标签和该集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源,通过预设的任务执行策略可以获取待执行的模型训练任务,并基于待执行的模型训练任务的集群资源需求信息和其所属任务执行队列的GPU显卡类型标签,可以向GPU集群资源管理中心请求与GPU显卡类型标签和集群资源需求信息对应的集群资源,实现了不同的GPU显卡类型标签和集群资源需求信息,可以请求不同的集群资源,而不是所有GPU显卡均分资源,导致资源分配不合理,造成利用率不高。本专利技术有效的提高GPU集群资源的利用率。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的设备结构示意图;图2为本专利技术集群资源调度方法第一实施例的流程示意图;图3为本专利技术集群资源调度装置第一实施例的功能模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境的设备结构示意图。本专利技术实施例集群资源调度设备可以是PC,也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。如图1所示,该集群资源调度设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选的用户接口1003还可以包括标准的有线接口、无线接口。本文档来自技高网...

【技术保护点】
1.一种集群资源调度方法,其特征在于,所述集群资源调度方法包括以下步骤:获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。

【技术特征摘要】
1.一种集群资源调度方法,其特征在于,所述集群资源调度方法包括以下步骤:获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务;获取所述待执行的模型训练任务所属任务执行队列的图形处理器GPU显卡类型标签,并获取所述待执行的模型训练任务的集群资源需求信息;依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源。2.如权利要求1所述的集群资源调度方法,其特征在于,所述获取任务执行队列组和预设的任务执行策略,并依据所述任务执行策略,从所述任务执行队列组中获取待执行的模型训练任务的步骤之前,还包括:当监测到任务提交请求时,从所述任务提交请求中获取集群资源需求信息和第一GPU显卡类型标签,并存储所述集群资源需求信息;依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组。3.如权利要求2所述的集群资源调度方法,其特征在于,依据所述第一GPU显卡类型标签,将所述任务提交请求中的模型训练任务插入至所述任务执行队列组中的对应任务执行队列,以更新所述任务执行队列组的步骤包括:获取所述任务执行队列组中各任务执行队列的第二GPU显卡类型标签;将各任务执行队列的第二GPU显卡类型标签与所述第一GPU显卡类型标签进行匹配;获取与所述第一GPU显卡类型标签匹配的第二GPU显卡类型标签,并将匹配到的所述第二GPU显卡类型标签所属的任务执行队列,确定为目标任务执行队列;将所述任务提交请求中的模型训练任务插入至所述目标任务执行队列。4.如权利要求1-3中任一项所述的集群资源调度方法,其特征在于,依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的集群资源的步骤包括:生成携带有所述GPU显卡类型标签和所述集群资源需求信息的集群资源申请请求,并将所述集群资源申请请求发送至GPU集群资源管理中心;接收所述GPU集群资源管理中心基于所述集群资源申请请求中的GPU显卡类型标签和集群资源需求信息返回的集群资源申请结果。5.如权利要求4所述的集群资源调度方法,其特征在于,依据所述GPU显卡类型标签和所述集群资源需求信息,向GPU集群资源管理中心请求对应的...

【专利技术属性】
技术研发人员:周可邸帅
申请(专利权)人:深圳前海微众银行股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1