【技术实现步骤摘要】
数据中心机群中的处理分配
[0001]本公开涉及数据中心机群中的处理分配。
技术介绍
[0002]数据中心通常包含服务器机群(fleet),服务器机群具有各种处理设备,诸如连接到服务器的图形处理单元(GPU)和加速器。可以将处理设备分配给各种任务,诸如高性能计算,云游戏,虚拟机,视频编码,基础架构即服务部署等。给定任务的性能可能涉及在多个处理设备处进行处理,每个处理设备都连接到服务器。除了服务器能够用作主机并与处理设备通信之外,处理设备还可以能够在彼此之间进行对等通信,即,无需通过服务器中继通信。
[0003]数据中心服务器机群可以包含数百个甚至数千个服务器,这些服务器具有连接到它们的不同数量的GPU和加速器。这样一来,服务器机群的带宽和功率需求就可能很大。因此,有必要仔细地管理服务器机群的带宽和功率需求。
技术实现思路
[0004]本公开提供了用于数据中心服务器机群的功率管理、同时确保为指配服务器机群的所有任务提供足够的带宽的方法和系统,。为了提供这些益处,可以获得与连接到服务器机群的每个服务器的处理设备有关的信息,并且可以存储和访问该信息以便确定将任务指配给一个或多个处理设备中的哪个。处理设备的候选组可以是非详尽列表。总之,所获得的信息用于缩小所有接收到的任务的候选者列表,进一步缩小用于任何一个给定任务的候选者列表,并从候选者当中进一步选择单个组来执行任务。获得的信息可以定期更新以反映服务器机群属性的变化。所获得的信息在指配任务、完成任务或这两者时也可以定期更新。
[0005]本公 ...
【技术保护点】
【技术特征摘要】
1.一种方法,包括:由一个或多个处理器接收将第一任务分配给多个处理设备中的一个或多个的第一请求,每个处理设备连接到对应主机服务器,至少一些处理设备被配置为经由对等连接彼此通信,所述第一请求指示执行所述第一任务所需的带宽;由所述一个或多个处理器访问预定义处理设备组的一个或多个列表,每个处理设备组包括连接到公共对应主机服务器的一个或多个处理设备,每个列表指示相应主机服务器的处理设备组针对分配任务的可用性,并进一步指示每个可用处理设备组的可用带宽;由所述一个或多个处理器将所述第一任务指配给具有大于或等于执行所述第一任务所需的带宽的可用带宽的第一处理设备组;以及由所述一个或多个处理器更新包括所述第一处理设备组的列表,以指示所述第一处理设备组和与所述第一处理设备组共享至少一个处理设备的任何其他处理设备组的每一个都不可用。2.如权利要求1所述的方法,其中,更新所述列表包括指示所述第一处理设备组被分配,并且与所述第一处理设备组共享至少一个处理设备的任何其他处理设备组不可用。3.如权利要求2所述的方法,进一步包括:由所述一个或多个处理器接收将第二任务分配给所述多个处理设备中的一个或多个的第二请求,所述第二请求指示用于执行所述第二任务所需的带宽;由所述一个或多个处理器访问包括所更新的列表的预定义处理设备组的一个或多个列表;由所述一个或多个处理器将所述第二任务指配给具有大于或等于执行所述第二任务所需的带宽的可用带宽的第二处理设备组,其中,所述第一处理设备组和所述第二处理设备组不共享任何处理设备;以及由所述一个或多个处理器重新更新所更新的列表,以指示所述第二处理设备组和与所述第二处理设备组共享至少一个处理设备的任何其他处理设备组的每一个都不可用。4.如权利要求2所述的方法,进一步包括:由所述一个或多个处理器接收所述第一任务已完成的指示;以及由所述一个或多个处理器更新包括所述第一处理设备组的列表以指示所述第一处理设备组可用,以及与所述第一处理设备组共享至少一个处理设备并且不与另一分配的处理设备组共享处理设备的任何其他处理设备组可用。5.如权利要求1所述的方法,其中,更新所述列表包括更新用于与所述第一处理设备组共享至少一个总线连接的一个或多个处理设备组的可用带宽。6.如权利要求5所述的方法,其中,对于针对给定处理设备组更新了可用带宽的所述给定处理设备组,所更新的可用带宽为:更新之前的可用带宽与执行所述第一任务所需的带宽之间的差;或者在执行所述第一任务时测量的可用带宽的量。7.如权利要求1所述的方法,其中,包括所述第一处理设备组的所述列表针对每个可用处理设备组进一步指示用于将所述第一任务分配给所述可用处理设备组所需要的附加功率量,以及其中,所述方法进一步包括将具有所需要的最低功率量的可用处理设备组指定为所述
第一处理设备组。8.如权利要求7所述的方法,其中,更新包括所述第一处理设备组的所述列表包括更新用于与所述第一处理设备组共享至少一个硬件组件或机械组件的一个或多个处理设备组所需要的附加功率量。9.如权利要求8所述的方法,其中,对于针对给定处理设备组更新了所需要的附加功率量的所述给定处理设备组,基于用于所共享的至少一个硬件组件或机械组件的预定功率需求来确定所更新的所需要的附加功率量。10.如权利要求1所述的方法,其中,所述第一请求指示用于执行所述第一任务的所需主机服务器带宽和所需对等带宽中的每一个;其中,包括所述第一处理设备组的所述列表指示用于每个可用处理设备组的可用主机服务器带宽和可用对等带宽中的每一个,以及其中,将所述第一任务指配给所述第一处理设备组进一步基于:所述第一处理设备组的可用主机服务器带宽大于或等于用于执行所述第一任务的所需主机服务器带宽;以及所述第一处理设备组的可用对等带宽大于或等于用于执行所述第一任务的所需对等带...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。