【技术实现步骤摘要】
资源管理与调度方法、装置、电子设备以及存储介质
[0001]本专利技术涉及云计算
,尤其涉及一种资源管理与调度方法
、
装置
、
电子设备以及存储介质
。
技术介绍
[0002]随着机器学习
(machine learning)
和机器视觉
(compute vision)
的快速发展,用户对
GPU
的需求也日益剧增
。
深度学习模型的训练和推理往往需要大量的显卡,用来支持更大的模型和数据集
。
[0003]相关技术中,往往通过对
GPU
进行划分得到多个
vGPU
,以使得单个
GPU
可以同时供多个虚拟机使用
。
但虚拟机使用
vGPU
资源的过程中,基于时分复用抢占式远离,竞争式的使用
vGPU
资源,资源管理的效率较低且资源利用效率较低
。
技术实现思路
[0004]为克服 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种资源管理与调度方法,其特征在于,所述方法包括:获取对图形处理器进行划分得到的多个实例;基于所述图形处理器对应的虚拟设备的使用状态,从所述多个实例中自动确定可用实例;在目标平台接收到虚拟机创建指令的情况下,基于所创建的所述可用实例与目标虚拟机的对应关系,在目标云服务器上创建并运行所述目标虚拟机;所述目标虚拟机挂载有所述可用实例对应的加速器
。2.
根据权利要求1所述的方法,其特征在于,所述基于所述图形处理器对应的虚拟设备的使用状态,从所述多个实例中自动确定可用实例,包括:针对所述图形处理器对应的多个虚拟设备中的任一虚拟设备,基于所述虚拟设备对应的多个虚拟化类型,确定所述虚拟设备的使用状态;在所述虚拟设备的使用状态为待使用状态的情况下,将所述虚拟设备确定为可用虚拟设备,并获取所述可用虚拟设备对应的可用实例
。3.
根据权利要求2所述的方法,其特征在于,在获取所述可用虚拟设备对应的可用实例之后,所述方法还包括:将所述可用实例对应的可用实例信息记录至实例上报列表;在达到停止条件的情况下,将所述实例上报列表发送至目标平台的数据库
。4.
根据权利要求3所述的方法,其特征在于,在所述图形处理器的数量为至少两个的情况下,所述方法还包括:针对所述多个图形处理器中的任一图形处理器,确定所述图形处理器是否开启目标模式;所述针对所述图形处理器对应的多个虚拟设备中的任一虚拟设备,基于所述虚拟设备对应的多个虚拟化类型,确定所述虚拟设备的使用状态,包括:在所述图形处理器开启目标模式的情况下,针对所述图形处理器对应的多个虚拟设备中的任一虚拟设备,基于所述虚拟设备对应的多个虚拟化类型,确定所述虚拟设备的使用状态
。5.
根据权利要求4所述的方法,其特征在于,所述将所述可用实例对应的可用实例信息记录至实例上报列表,包括:将所述至少两个图形处理器对应的可用实例所对应的可用实例信息记录至实例上报列表
。6.
根据权利要求2所述的方法,其特征在于,所述基于所述虚拟设备对应的多个虚拟化类型,确定所述虚拟设备的使用状态,包括:获取所述图形处理器对应的虚拟设备列表;所述虚拟设备列表包括多个虚拟设备;针对所述多个虚拟设备中的任一虚拟设备,获取所述虚拟设备对应的多个虚拟化类型;针对所述多个虚拟化类型中的任一虚拟化类型,获取所述虚拟化类型对应的可分配虚拟机数量;在所述可分配虚拟机数量为1的情况下,将所述虚拟设备的使用状态确定为待使用状态;
在所述可分配虚拟机数量为0的情况下,基于所述虚拟化类型对应的设备目录,确定所述虚拟设备的使用状态
。7.
根据权利要求6所述的方法,其特征在于,所述在所述可分配虚拟机数量为0的情况下,基于所述虚拟化类型对应的设备目录,确定所述虚拟设备的使用状态,包括:在所述可分配虚拟机数量为0且所述设备目录中包含设备信息的情况下,确定所述虚拟设备的使用状态为已使用状态;在所述可分配虚拟机数量为0且所述设备目录中不包含设备信息的情况下,确定不存在所述虚拟化类型对应的实例,并重复执行所述针对所述多个虚拟化类型中的任一虚拟化类型,获取所述虚拟化类型对应的可分配虚拟机数量的步骤
。8.
根据权利要求3所述的方法,其特征在于,所述方法还包括:获取所述图形处理器对应的实例列表;在确定所述虚拟设备的使用状态为已使用状态或待使用状态的情况下,将所述实例列表中与所述虚拟设备对应的实例相同的实例删除;所述停止条件包括所述实例列表为空
。9.
根据权利要求3所述的方法,其特征在于,所述虚拟机创建指令携带有指定加速器规格;所述方法还包括:基于所述数据库中的实例上报列表中的可用实例,创建指定实例对应的指定加速器规格;所述可用实例包括所述指定实例;基于所述指定加速器规格,确定目标云服务器
。10.
根据权利要求9所述的方法,其特征在于,所述指定加速器规格中包括指定实例的显存大小信息以及所述指定实例对应的图形编辑器的编号信息;所述基于所述指定加速器规格,确定目标云服务器,包括:基于所述显存大小信息以及所述指定实例对应的图形编辑器的编号信息,根据多个云服务器的处理器信息以及内存信息,确定目标云服务器
。11.
根据权利要求9所述的方法,其特征在于,所述目标平台中包括
Nova
组件以及
Cyborg
组件;所述在目标平台接收到虚拟机创建指令的情况下,基于所创建的所述可用实例与目标虚拟机的对应关系,在目标云服务器上创建并运行所述目标虚拟机,包括:在所述
Nova
组件接收到虚拟机创建请求的情况下,向所述
Cyborg
组件请求所述指定加速器规格对应的加速器;所述虚拟机创建请求用于请求创建挂载有所述指定加速器规格对应的加速器的虚拟机;通过所述
Nova
组件向所述
Cyborg
组件请求所述加速器的挂载操作,在所述目标云服务器上创建所述目标虚拟机
。12.
根据权利要求
11
所述的方法,其特征在于,所述
Nova
组件包括
nova
‑
compute
,所述
Cyborg
组件包括
cyborg
‑
api
,所述
cyborg
‑
api
位于所述目标平台的控制节点;所述向所述
Cyborg
组件请求所述指定加速器规格对应的加速器,包括:通过所述
nova
‑
compute
调用所述
cyborg
‑
技术研发人员:宋文平,苏广峰,徐源浩,郭敬宇,
申请(专利权)人:苏州元脑智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。