【技术实现步骤摘要】
GPU资源调度方法、设备和存储介质
[0001]本专利技术涉及计算机
,尤其涉及一种GPU资源调度方法、设备和存储介质。
技术介绍
[0002]多模态机器翻译将会使用各种深度学习框架,深度学习框架是机器翻译模型支撑的核心,也是增量训练的基础,因此需要保证各种深度学习框架可以兼容并方便管理和训练,需要对多个GPU(graphicsprocessing unit,图形处理器)资源要进行容器集群管理,实现对计算资源的管理。
技术实现思路
[0003]本专利技术的主要目的在于提供一种GPU资源调度方法、设备和存储介质,旨在解决如何实现GPU资源分配的灵活性的问题。
[0004]为实现上述目的,本专利技术提供的一种GPU资源调度方法,所述GPU资源调度方法包括以下步骤:
[0005]在Pod与目标节点绑定后,查询所述目标节点对应的GPU资源,所述GPU资源包括GPU显存容量和GPU卡数;
[0006]基于所述目标节点对应的GPU资源,创建所述Pod对应的容器。
[0007]可选地, ...
【技术保护点】
【技术特征摘要】
1.一种GPU资源调度方法,其特征在于,应用于kubelet组件,所述Kubernetes系统中包括调度器、kubelet组件和节点集群,所述方法包括:在Pod与目标节点绑定后,查询所述目标节点对应的GPU资源,所述GPU资源包括GPU显存容量和GPU卡数;基于所述目标节点对应的GPU资源,创建所述Pod对应的容器。2.如权利要求1所述的GPU资源调度方法,其特征在于,所述查询所述目标节点对应的GPU资源的步骤之前,还包括:获取节点集群中各工作节点的使用状态;根据所述使用状态确定上报的工作节点的资源信息;将所述资源信息发送至所述调度器。3.如权利要求2所述的GPU资源调度方法,其特征在于,所述查询节点集群中各工作节点的使用状态的步骤包括:根据所述资源请求生成注册请求,并将所述注册请求发送至设备插件,以使所述设备插件启动gRPC服务;获取节点集群中工作节点的使用状态。4.如权利要求2所述的GPU资源调度方法,其特征在于,所述查询节点集群中各工作节点的使用状态的步骤包括:在调度器接收到基于Pod的资源请求后,获取节点集群中各工作节点的使用状态;或者,获取设备插件在启动时刻上报的节点集群中各工作节点的使用状态。5.一种GPU资源调度方法,其特征在于,应用于调度器,所述方法包括:接收基于Pod的资源请求,所述资源请求包括GPU目标显存容量和GPU目标卡数;获取kubelet组件上报的工作节点的资源信息;根据所述资源信息确定所述资源请求对应的目标节点,...
【专利技术属性】
技术研发人员:王文正,田亮,黎媛,张旭敏,廖玲,
申请(专利权)人:新译信息科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。