一种在分布式集群中调度显卡资源的方法和装置制造方法及图纸

技术编号:16269763 阅读:106 留言:0更新日期:2017-09-22 21:26
本发明专利技术公开了一种在分布式集群中调度显卡资源的方法和装置。其中方法包括:获取分布式集群中的显卡资源,在显卡资源调度表中记录各PCI‑E总线上的可用显卡数量;接收提交的作业,所述作业中包含该作业申请的显卡数量;查找所述显卡资源调度表,当一个PCI‑E总线上的可用显卡数量满足该作业申请的显卡数量时,从该PCI‑E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。该技术方案能够尽可能地保证每个提交的作业都利用不需要跨PCI‑E总线进行通信的显卡来执行,避免了因跨PCI‑E总线通信导致的低效率,对于深度学习作业等对显卡资源要求很高的作业类型有着较大的效率提升,调度粒度很细,符合分布式集群的需求。

【技术实现步骤摘要】
一种在分布式集群中调度显卡资源的方法和装置
本专利技术涉及计算机
,具体涉及一种在分布式集群中调度显卡资源的方法和装置。
技术介绍
目前分布式集群中的资源管理器或者说资源调度器已经有很多种,例如k8s,mesos,yarn等。但是它们并不能很好的调度显卡资源,而对于深度学习等对显卡资源的需求较高的计算任务而言,被分配到的显卡资源的优劣将大大影响计算任务的执行效率。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的在分布式集群中调度显卡资源的方法和装置。依据本专利技术的一个方面,提供了一种在分布式集群中调度显卡资源的方法,包括:获取分布式集群中的显卡资源,在显卡资源调度表中记录各PCI-E总线上的可用显卡数量;接收提交的作业,所述作业中包含该作业申请的显卡数量;查找所述显卡资源调度表,当一个PCI-E总线上的可用显卡数量满足该作业申请的显卡数量时,从该PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。可选地,所述获取分布式集群中的显卡资源包括:从分布式集群中部署的各计算设备的PCI-E总线中读取该计算设备上的显卡资源。可选地,所述在显卡资源调度表中记录各PCI-E总线上的可用显卡数量包括:在开链表中记录各PCI-E总线上的可用显卡ID,并按各PCI-E总线上的可用显卡数量进行排序。可选地,所述排序为升序,所述查找所述显卡资源调度表包括:通过深度优先算法遍历所述开链表,判断各PCI-E总线上的可用显卡数量是否满足该作业申请的显卡数量。可选地,当所有PCI-E总线上的可用显卡数量均不满足该作业申请的显卡数量时,通过深度优先算法重新遍历所述开链表,从多个PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。可选地,通过深度优先算法重新遍历所述开链表,所述从多个PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源包括:将查找到的首个PCI-E总线上的所有可用显卡分配给该作业,判断下一个PCI-E总线上的可用显卡数量是否满足该作业申请的剩余显卡数量,若满足则从该PCI-E总线中选取与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源,若不满足则将该PCI-E总线上的所有可用显卡分配给该作业,并判断下一个PCI-E总线上的可用显卡数量是否满足该作业申请的剩余显卡数量直至该作业申请的剩余显卡数量被满足。可选地,该方法还包括:将为该作业分配的所有可用显卡从所述开链表中删除,并重新对所述开链表进行排序;和/或,根据释放的显卡资源修改所述开链表,并重新对所述开链表进行排序。依据本专利技术的另一方面,提供了一种在分布式集群中调度显卡资源的装置,包括:记录单元,适于获取分布式集群中的显卡资源,在显卡资源调度表中记录各PCI-E总线上的可用显卡数量;调度单元,适于接收提交的作业,所述作业中包含该作业申请的显卡数量,查找所述显卡资源调度表,当一个PCI-E总线上的可用显卡数量满足该作业申请的显卡数量时,从该PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。可选地,所述记录单元,适于从分布式集群中部署的各计算设备的PCI-E总线中读取该计算设备上的显卡资源。可选地,所述记录单元,适于在开链表中记录各PCI-E总线上的可用显卡ID,并按各PCI-E总线上的可用显卡数量进行排序。可选地,所述记录单元在开链表中进行升序排序;所述调度单元,适于通过深度优先算法遍历所述开链表,判断各PCI-E总线上的可用显卡数量是否满足该作业申请的显卡数量。可选地,所述调度单元,还适于当所有PCI-E总线上的可用显卡数量均不满足该作业申请的显卡数量时,通过深度优先算法重新遍历所述开链表,从多个PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。可选地,所述调度单元,适于将查找到的首个PCI-E总线上的所有可用显卡分配给该作业,判断下一个PCI-E总线上的可用显卡数量是否满足该作业申请的剩余显卡数量,若满足则从该PCI-E总线中选取与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源,若不满足则将该PCI-E总线上的所有可用显卡分配给该作业,并判断下一个PCI-E总线上的可用显卡数量是否满足该作业申请的剩余显卡数量直至该作业申请的剩余显卡数量被满足。可选地,所述记录单元,适于将为该作业分配的所有可用显卡从所述开链表中删除,并重新对所述开链表进行排序;和/或,适于根据释放的显卡资源修改所述开链表,并重新对所述开链表进行排序。由上述可知,本专利技术的技术方案,在获取到分布式集群中的显卡资源后,在一张显卡资源调度表中记录各PCI-E总线上的可用显卡数量,当接收到包含申请的显卡数量的作业时,查找显卡资源调度表,从中选择可以满足该作业申请的显卡数量的PCI-E总线,从该总线上分配相应数量的显卡给该作业。该技术方案能够尽可能地保证每个提交的作业都利用不需要跨PCI-E总线进行通信的显卡来执行,避免了因跨PCI-E总线通信导致的低效率,对于深度学习作业等对显卡资源要求很高的作业类型有着较大的效率提升,调度粒度很细,符合分布式集群的需求。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的一种在分布式集群中调度显卡资源的方法的流程示意图;图2示出了根据本专利技术一个实施例的一种在分布式集群中调度显卡资源的装置的结构示意图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1示出了根据本专利技术一个实施例的一种在分布式集群中调度显卡资源的方法的流程示意图,如图1所示,该方法包括:步骤S110,获取分布式集群中的显卡资源,在显卡资源调度表中记录各PCI-E总线上的可用显卡数量。PCI-E(PCI-Express)总线是目前较新的总线协议,目前大多数计算设备中,显卡、网卡等设备都连接在PCI-E总线上。步骤S120,接收提交的作业,作业中包含该作业申请的显卡数量。步骤S130,查找显卡资源调度表,当一个PCI-E总线上的可用显卡数量满足该作业申请的显卡数量时,从该PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。在实践中发现,如果一个作业被分配到的多个显卡需要跨PCI-E总线通信,那么效率将会变得特别低,而如果多个显卡连接在同一个PCI-E总线上效率则相对高。为避免跨总线通信的情况提出了本实施例。可见,图1所示的方法本文档来自技高网...
一种在分布式集群中调度显卡资源的方法和装置

【技术保护点】
一种在分布式集群中调度显卡资源的方法,其中,该方法包括:获取分布式集群中的显卡资源,在显卡资源调度表中记录各PCI‑E总线上的可用显卡数量;接收提交的作业,所述作业中包含该作业申请的显卡数量;查找所述显卡资源调度表,当一个PCI‑E总线上的可用显卡数量满足该作业申请的显卡数量时,从该PCI‑E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。

【技术特征摘要】
1.一种在分布式集群中调度显卡资源的方法,其中,该方法包括:获取分布式集群中的显卡资源,在显卡资源调度表中记录各PCI-E总线上的可用显卡数量;接收提交的作业,所述作业中包含该作业申请的显卡数量;查找所述显卡资源调度表,当一个PCI-E总线上的可用显卡数量满足该作业申请的显卡数量时,从该PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。2.如权利要求1所述的方法,其中,所述获取分布式集群中的显卡资源包括:从分布式集群中部署的各计算设备的PCI-E总线中读取该计算设备上的显卡资源。3.如权利要求1所述的方法,其中,所述在显卡资源调度表中记录各PCI-E总线上的可用显卡数量包括:在开链表中记录各PCI-E总线上的可用显卡ID,并按各PCI-E总线上的可用显卡数量进行排序。4.如权利要求3所述的方法,其中,所述排序为升序,所述查找所述显卡资源调度表包括:通过深度优先算法遍历所述开链表,判断各PCI-E总线上的可用显卡数量是否满足该作业申请的显卡数量。5.如权利要求4所述的方法,其中,当所有PCI-E总线上的可用显卡数量均不满足该作业申请的显卡数量时,通过深度优先算法重新遍历所述开链表,从多个PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显卡资源。6.如权利要求5所述的方法,其中,通过深度优先算法重新遍历所述开链表,所述从多个PCI-E总线上选择与该作业申请的显卡数量匹配的数量的显卡作为分配给该作业的显...

【专利技术属性】
技术研发人员:李远策
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1