数据中心机群中的处理分配制造技术

技术编号:27129947 阅读:43 留言:0更新日期:2021-01-25 19:58
本公开涉及数据中心机群中的处理分配。一种用于在数据中心的处理设备之间分配任务的方法和系统。该方法可以包括接收将任务分配给一个或多个处理设备的请求,该请求指示用于执行任务的所需带宽,连接到主机服务器的预定义处理设备组的列表以及指示其中所包括的处理设备组的可用性,用于对每个可用处理设备组指配任务和可用带宽;将任务分配给可用带宽大于或等于执行任务所需带宽的处理设备组,并且更新列表以指示向其指配任务的处理设备组和共享至少一个处理设备的其他处理设备组的每一个不可用。可以将任务指配给具有所需最低功率量的可用处理设备组。量的可用处理设备组。量的可用处理设备组。

【技术实现步骤摘要】
数据中心机群中的处理分配


[0001]本公开涉及数据中心机群中的处理分配。

技术介绍

[0002]数据中心通常包含服务器机群(fleet),服务器机群具有各种处理设备,诸如连接到服务器的图形处理单元(GPU)和加速器。可以将处理设备分配给各种任务,诸如高性能计算,云游戏,虚拟机,视频编码,基础架构即服务部署等。给定任务的性能可能涉及在多个处理设备处进行处理,每个处理设备都连接到服务器。除了服务器能够用作主机并与处理设备通信之外,处理设备还可以能够在彼此之间进行对等通信,即,无需通过服务器中继通信。
[0003]数据中心服务器机群可以包含数百个甚至数千个服务器,这些服务器具有连接到它们的不同数量的GPU和加速器。这样一来,服务器机群的带宽和功率需求就可能很大。因此,有必要仔细地管理服务器机群的带宽和功率需求。

技术实现思路

[0004]本公开提供了用于数据中心服务器机群的功率管理、同时确保为指配服务器机群的所有任务提供足够的带宽的方法和系统,。为了提供这些益处,可以获得与连接到服务器机群的每个服务器的处理设备有关的信息,并且可以存储和访问该信息以便确定将任务指配给一个或多个处理设备中的哪个。处理设备的候选组可以是非详尽列表。总之,所获得的信息用于缩小所有接收到的任务的候选者列表,进一步缩小用于任何一个给定任务的候选者列表,并从候选者当中进一步选择单个组来执行任务。获得的信息可以定期更新以反映服务器机群属性的变化。所获得的信息在指配任务、完成任务或这两者时也可以定期更新。
[0005]本公开的一个方面针对一种方法,包括:由一个或多个处理器接收将第一任务分配给多个处理设备中的一个或多个的第一请求,每个处理设备连接到对应主机服务器,至少一些处理设备被配置为经由对等连接彼此通信,第一请求指示执行第一任务的所需带宽;由一个或多个处理器访问预定义处理设备组的一个或多个列表,每个处理设备组包括连接到公共对应主机服务器的一个或多个处理设备,每个列表指示相应服务器的处理设备组针对分配任务的可用性,并进一步指示每个可用处理设备组的可用带宽;由一个或多个处理器将第一任务指配给第一处理设备组,第一处理设备组的可用带宽大于或等于执行第一任务所需的带宽;以及由一个或多个处理器更新包括第一处理设备组的列表,以指示第一处理设备组和与第一处理设备组共享至少一个处理设备的任何其他处理设备组的每一个都不可用。
[0006]在一些示例中,更新列表可以包括指示第一处理设备组被分配,并且与第一处理设备组共享至少一个处理设备的任何其他处理设备组不可用。
[0007]在一些示例中,该方法可以进一步包括由一个或多个处理器接收将第二任务分配给多个处理设备中的一个或多个的第二请求,第二请求指示用于执行第二任务的所需带
宽;由一个或多个处理器访问包括所更新的列表的一个或多个列表;由一个或多个处理器将第二任务指配给具有大于或等于执行第二任务的所需带宽的可用带宽的第二处理设备组,其中,第一处理设备组和第二处理设备组不共享任何处理设备;以及由一个或多个处理器重新更新所更新的列表,以指示第二处理设备组和与第二处理设备组共享至少一个处理设备的任何其他处理设备组的每一个都不可用。
[0008]在一些示例中,该方法可以进一步包括由一个或多个处理器接收完成第一任务的指示;以及由一个或多个处理器更新包括第一处理设备组的列表以指示第一处理设备组可用,以及与第一处理设备组共享至少一个处理设备并且不与另一分配的处理设备组共享处理设备的任何其他处理设备组可用。
[0009]在一些示例中,更新列表可以包括更新用于与第一处理设备组共享至少一个总线连接的一个或多个处理设备组的可用带宽。对于针对其更新了可用带宽的给定处理设备组,所更新的可用带宽可以为更新之前的可用带宽与执行第一任务的所需带宽之间的差;或者在执行第一任务时测量的可用带宽的量。
[0010]在一些示例中,可以包括第一处理设备组的列表针对每个可用处理设备组,进一步指示用于将第一任务分配给可用处理设备组所需的附加功率量,以及该方法可以进一步包括将具有所需要的最低功率量的可用处理组指定为第一处理设备组。更新包括第一处理设备组的列表可以包括更新用于与第一处理设备组共享至少一个硬件组件或机械组件的一个或多个处理设备组所需要的附加功率量。对于针为其更新了所需要的附加功率量的给定处理设备组,可以基于用于所共享的至少一个硬件组件或机械组件的预定功率需求来确定所更新的所需要的附加功率量。
[0011]在一些示例中,第一请求可以指示用于执行第一任务的所需主机服务器带宽和所需对等带宽中的每一个。包括第一处理设备组的列表可以指示用于每个可用处理设备组的可用主机服务器带宽和可用对等带宽中的每一个。将第一任务指配给第一处理设备组可以进一步基于第一处理组的可用主机服务器带宽大于或等于用于执行第一任务的所需主机服务器带宽;以及第一处理组的可用对等带宽大于或等于用于执行第一任务的所需对等带宽。
[0012]本公开的另一方面针对一种方法,该方法包括由一个或多个处理器接收将任务分配给多个处理设备中的一个或多个的请求,每个处理设备连接至对应主机服务器,至少一些处理设备被配置为经由对等连接彼此通信,该请求指示用于执行任务所需的带宽,由一个或多个处理器接收用于多个处理设备组的信息,每个处理设备组包括连接到公共对应主机服务器的一个或多个处理设备,该信息指示对每个给定处理设备组,该给定处理设备组的可用带宽以及激活该给定处理设备组所需的附加功率量,由多个处理器之一从具有大于或等于用于执行任务所需的带宽的可用带宽的处理设备组的子集中选择具有用于指配任务所需要的最低的附加功率量的处理设备组,并且由一个或多个处理器发送将任务指配给所选处理设备组的请求。
[0013]在一些示例中,该方法可以进一步包括基于将任务指配给所选择的处理设备组来更新用于多个处理设备组的信息。更新信息可以包括对多个处理设备组中的每个未选择的组,更新用于激活未选择的处理设备组所需要的附加功率量。
[0014]在一些示例中,该请求可以进一步指示组大小参数,该信息可以针对每个给定处
理设备组指示给定处理设备组的组大小,以及可以从具有大于或等于用于执行任务所需的带宽的可用带宽并且具有在组大小参数内的组大小的处理设备组的子集中选择具有用于指配任务所需要的最低附加功率量的处理设备组。给定处理设备组的组大小可以指示给定处理设备组中包括的加速器、图形处理单元或两者的总数。
[0015]在一些示例中,将任务指配给所选择的处理设备组的请求可以包括由一个或多个处理器向所选择的处理设备组的主机服务器发送用于启动任务的指令。
[0016]本公开的另一方面针对一种方法,包括由服务器的一个或多个处理器存储关于与服务器连接并由其控制的多个处理设备的信息,其中,多个处理设备中的至少一些被配置为经由对等连接彼此通信,其中,所存储的信息包括多个处理设备的子组的标识,每个所标识的子组在所存储的信息中与相应的可用性指示、相应的可用带宽指示和相应的激活所需功率指示相关联本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种方法,包括:由一个或多个处理器接收将第一任务分配给多个处理设备中的一个或多个的第一请求,每个处理设备连接到对应主机服务器,至少一些处理设备被配置为经由对等连接彼此通信,所述第一请求指示执行所述第一任务所需的带宽;由所述一个或多个处理器访问预定义处理设备组的一个或多个列表,每个处理设备组包括连接到公共对应主机服务器的一个或多个处理设备,每个列表指示相应主机服务器的处理设备组针对分配任务的可用性,并进一步指示每个可用处理设备组的可用带宽;由所述一个或多个处理器将所述第一任务指配给具有大于或等于执行所述第一任务所需的带宽的可用带宽的第一处理设备组;以及由所述一个或多个处理器更新包括所述第一处理设备组的列表,以指示所述第一处理设备组和与所述第一处理设备组共享至少一个处理设备的任何其他处理设备组的每一个都不可用。2.如权利要求1所述的方法,其中,更新所述列表包括指示所述第一处理设备组被分配,并且与所述第一处理设备组共享至少一个处理设备的任何其他处理设备组不可用。3.如权利要求2所述的方法,进一步包括:由所述一个或多个处理器接收将第二任务分配给所述多个处理设备中的一个或多个的第二请求,所述第二请求指示用于执行所述第二任务所需的带宽;由所述一个或多个处理器访问包括所更新的列表的预定义处理设备组的一个或多个列表;由所述一个或多个处理器将所述第二任务指配给具有大于或等于执行所述第二任务所需的带宽的可用带宽的第二处理设备组,其中,所述第一处理设备组和所述第二处理设备组不共享任何处理设备;以及由所述一个或多个处理器重新更新所更新的列表,以指示所述第二处理设备组和与所述第二处理设备组共享至少一个处理设备的任何其他处理设备组的每一个都不可用。4.如权利要求2所述的方法,进一步包括:由所述一个或多个处理器接收所述第一任务已完成的指示;以及由所述一个或多个处理器更新包括所述第一处理设备组的列表以指示所述第一处理设备组可用,以及与所述第一处理设备组共享至少一个处理设备并且不与另一分配的处理设备组共享处理设备的任何其他处理设备组可用。5.如权利要求1所述的方法,其中,更新所述列表包括更新用于与所述第一处理设备组共享至少一个总线连接的一个或多个处理设备组的可用带宽。6.如权利要求5所述的方法,其中,对于针对给定处理设备组更新了可用带宽的所述给定处理设备组,所更新的可用带宽为:更新之前的可用带宽与执行所述第一任务所需的带宽之间的差;或者在执行所述第一任务时测量的可用带宽的量。7.如权利要求1所述的方法,其中,包括所述第一处理设备组的所述列表针对每个可用处理设备组进一步指示用于将所述第一任务分配给所述可用处理设备组所需要的附加功率量,以及其中,所述方法进一步包括将具有所需要的最低功率量的可用处理设备组指定为所述
第一处理设备组。8.如权利要求7所述的方法,其中,更新包括所述第一处理设备组的所述列表包括更新用于与所述第一处理设备组共享至少一个硬件组件或机械组件的一个或多个处理设备组所需要的附加功率量。9.如权利要求8所述的方法,其中,对于针对给定处理设备组更新了所需要的附加功率量的所述给定处理设备组,基于用于所共享的至少一个硬件组件或机械组件的预定功率需求来确定所更新的所需要的附加功率量。10.如权利要求1所述的方法,其中,所述第一请求指示用于执行所述第一任务的所需主机服务器带宽和所需对等带宽中的每一个;其中,包括所述第一处理设备组的所述列表指示用于每个可用处理设备组的可用主机服务器带宽和可用对等带宽中的每一个,以及其中,将所述第一任务指配给所述第一处理设备组进一步基于:所述第一处理设备组的可用主机服务器带宽大于或等于用于执行所述第一任务的所需主机服务器带宽;以及所述第一处理设备组的可用对等带宽大于或等于用于执行所述第一任务的所需对等带...

【专利技术属性】
技术研发人员:乌曼
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1