数据中心的电子机架及用于确定液体泵的优化泵速的方法技术

技术编号:27753481 阅读:28 留言:0更新日期:2021-03-19 13:49
一种电子机架包括堆叠布置的刀片服务器阵列。每个刀片服务器包含一个或多个服务器,并且每个服务器包括一个或多个处理器以提供数据处理服务。电子机架还包括冷却剂分配单元(CDU)和机架管理单元(RMU)。CDU被配置为向处理器供应冷却液并且接收携带有从处理器交换的热量的冷却液。CDU包括用于泵送冷却液的液体泵和用于控制液体泵的泵速的泵控制器。RMU被配置为管理电子机架内的诸如CDU等的部件的操作。RMU包括控制逻辑,以通过基于处理器的处理器功耗、CDU的冷却功耗和数据处理服务的基准性能测量优化目标函数来确定液体泵的优化泵速,并且基于优化泵速来控制液体泵的泵速。

【技术实现步骤摘要】
数据中心的电子机架及用于确定液体泵的优化泵速的方法
本专利技术的实施方式大体上涉及数据中心。更具体地,本专利技术的实施方式涉及用于数据中心中的电子机架的液体冷却的优化性能控制。
技术介绍
高功率密度芯片和处理器的热管理是关键问题,尤其是随着诸如CPU(中央处理单元)和GPU(通用处理单元)的高端芯片的功率密度的增加亦是如此。在冷却系统设计中使用的冷却装置用于通过去除由芯片产生的热量来维持芯片的热状态。如果温度超过热规范的限制,则芯片可能无法正常工作,并且可能发生节流。此外,通过在芯片工作时为其提供适当或更好的热条件,可以实现更好的性能或更低的功耗。高性能机器学习计算由诸如数据中心GPU的高功率密度处理器实现。常规的空气冷却解决方案正在努力应对此类GPU机架中的热管理挑战。相反,冷板液体冷却解决方案提供了好得多的冷却性能,并且节省了在冷却基础设施中的能耗。在所有先前的解决方案和报告中,工作集中在提高冷却水温度和冷却空气温度以提高冷却系统的功率效率。然而,不包括处理器的温度与其功耗之间的相互作用。并且不包括处理器的温度与其性能之间的相互作用。它可能不是数据中心中的优化控制和操作策略。
技术实现思路
根据本申请的一方面,提供了数据中心的电子机架,所述电子机架包括:堆叠布置的多个刀片服务器,每个刀片服务器包含一个或多个服务器,并且每个服务器包括一个或多个处理器以提供数据处理服务;冷却剂分配单元,用于向处理器供应冷却液并且接收携带有从处理器交换的热量的冷却液,其中,冷却剂分配单元包括用于泵送冷却液的液体泵和用于控制液体泵的泵速的泵控制器;以及机架管理单元,联接到刀片服务器和冷却剂分配单元。其中,机架管理单元包括控制逻辑,控制逻辑被配置为:通过基于处理器的处理器功耗、冷却剂分配单元的冷却功耗和数据处理服务的基准性能测量优化目标函数来确定液体泵的优化泵速,以及基于优化泵速经由泵控制器来控制液体泵的泵速。根据本申请的另一方面,提供了一种用于确定液体泵的优化泵速以向数据中心的电子机架提供液体冷却的方法,所述方法包括:确定具有多个刀片服务器的电子机架的冷却剂分配单元的液体泵的优化泵速,每个刀片服务器包括一个或多个服务器,并且每个服务器包括一个或多个处理器以提供数据处理服务,其中,冷却剂分配单元被配置为向处理器提供冷却液,冷却剂分配单元包括用于控制液体泵的泵速的泵控制器。其中,确定优化泵速包括:基于处理器的处理器功耗、冷却剂分配单元的冷却功耗和数据处理服务的基准性能测量来优化目标函数;以及基于优化泵速经由泵控制器来控制液体泵的泵速。附图说明在附图的各图中以示例而非限制的方式示出本专利技术的实施方式,在附图中,类似的附图标记表示类似的元件。图1是示出根据一个实施方式的数据中心系统的示例的框图。图2是示出根据一个实施方式的电子机架的示例的框图。图3是示出根据另一实施方式的电子机架的示例的框图。图4是示出根据一个实施方式的处理器温度与基准训练时间之间的多项式曲线的示例的图。图5A和图5B示出根据某些实施方式的不同的处理器配置。图6是示出根据一个实施方式的确定液体泵的优化泵速的过程的流程图。具体实施方式将参考以下所讨论的细节来描述本专利技术的各种实施方式和方面,并且附图将说明各种实施方式。以下描述和附图是对本专利技术的说明,而不应当解释为限制本专利技术。描述了许多特定细节以提供对本专利技术各种实施方式的全面理解。然而,在某些情况下,并未描述众所周知的或常规的细节,以便提供对本专利技术的实施方式的简洁讨论。本说明书中对“一个实施方式”或“实施方式”的提及意味着结合实施方式所描述的特定特征、结构或特性可以包括在本专利技术的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部指同一实施方式。本公开的实施方式集中于如何能够针对液体冷却的电子机架优化每瓦性能。包括对应机器学习模型的基准训练时间作为计算性能的指标。此处,功耗包括处理器功率和液体冷却解决方案中的冷却功率。每瓦性能值越高表示系统越有效地利用电功率。作为电子机架的机架管理单元的一部分的控制逻辑被用来优化每瓦性能。机器学习基准用于评估特定预期应用场景中的处理器计算性能。利用新的数学模型,其包括GPU工作温度对计算性能、处理器功率使用和冷却功耗的影响。对应地确定优化处理器工作温度。整个电子机架被视为整体系统。本文提出的概念旨在设计和操作最有效的性能/瓦特系统,尤其是对于人工智能(AI)机器学习应用场景,即,服务器被专门配置为执行特定类型的数据或内容的机器学习操作(例如,图像识别、对象检测、自然语言处理或NLP等)。根据一个方面,电子机架包括堆叠布置的刀片服务器阵列。每个刀片服务器包含一个或多个服务器,并且每个服务器包括一个或多个处理器以提供数据处理服务。电子机架还包括冷却剂分配单元(CDU)和机架管理单元(RMU)。CDU被配置为向处理器供应冷却液并且接收携带有从处理器交换的热量的冷却液。CDU包括用于泵送冷却液的液体泵和用于控制液体泵的泵速的泵控制器。RMU被配置为管理电子机架内的诸如CDU等的部件的操作。RMU包含控制逻辑,以通过基于处理器的处理器功耗、CDU的冷却功耗和数据处理服务的基准性能测量优化目标函数来确定液体泵的优化泵速,并且基于优化泵速来控制液体泵的泵速。在一个实施方式中,目标函数用于确定优化泵速,使得目标函数在满足一组预定约束条件的同时达到最大值。预定约束条件包括每个处理器的温度在预定温度范围内(例如,在最低温度与最高温度之间)的第一条件以及液体泵的泵速在预定速度范围内(例如,在最低速度与最高速度之间)的第二条件。在一个实施方式中,处理器功耗是电子机架内的所有处理器的功耗之和。基于从处理器测量的温度(诸如处理器的外表面的温度)使用第一函数来确定单个处理器的功耗。可以基于液体泵的当前泵速使用第二函数来确定冷却功耗。可以基于处理器的功耗和液体泵的泵速使用第三函数来确定处理器的温度。在特定实施方式中,第三函数还基于冷却液的液体温度。基于数据样本的数量和处理样本的时间使用与服务器被配置为执行的数据处理服务的类型对应的预定基准系统来确定基准性能测量。根据另一方面,提供了用于确定液体泵的优化泵速以向数据中心的电子机架提供液体冷却的方法。该方法包括确定具有多个刀片服务器的电子机架的CDU的液体泵的优化泵速。每个刀片服务器包括一个或多个服务器,并且每个服务器包括一个或多个处理器以提供数据处理服务。确定优化泵速包括基于如上所述的处理器的处理器功耗、CDU的冷却功耗和数据处理服务的基准性能测量来执行目标函数的优化。图1是示出根据本专利技术的一个实施方式的数据中心系统的框图。在此示例中,图1示出数据中心的至少一部分的顶视图。参考图1,根据一个实施方式,数据中心系统100包括IT部件、设备或仪器101至102(例如,向各种客户端提供数据服务的计算机服务器)的成行的电子机架。在该实施方式中,数据中心系统100包括以行101和行102布置的电子机架,诸如电子机架1本文档来自技高网...

【技术保护点】
1.一种数据中心的电子机架,包括:/n堆叠布置的多个刀片服务器,每个刀片服务器包含一个或多个服务器,并且每个服务器包括一个或多个处理器以提供数据处理服务;/n冷却剂分配单元,用于向所述处理器供应冷却液并且接收携带有从所述处理器交换的热量的所述冷却液,其中,所述冷却剂分配单元包括用于泵送所述冷却液的液体泵和用于控制所述液体泵的泵速的泵控制器;以及/n机架管理单元,联接到所述刀片服务器和所述冷却剂分配单元,其中,所述机架管理单元包括控制逻辑,所述控制逻辑被配置为:/n通过基于所述处理器的处理器功耗、所述冷却剂分配单元的冷却功耗和所述数据处理服务的基准性能测量优化目标函数来确定所述液体泵的优化泵速,以及/n基于所述优化泵速经由所述泵控制器来控制所述液体泵的泵速。/n

【技术特征摘要】
20190918 US 16/575,3681.一种数据中心的电子机架,包括:
堆叠布置的多个刀片服务器,每个刀片服务器包含一个或多个服务器,并且每个服务器包括一个或多个处理器以提供数据处理服务;
冷却剂分配单元,用于向所述处理器供应冷却液并且接收携带有从所述处理器交换的热量的所述冷却液,其中,所述冷却剂分配单元包括用于泵送所述冷却液的液体泵和用于控制所述液体泵的泵速的泵控制器;以及
机架管理单元,联接到所述刀片服务器和所述冷却剂分配单元,其中,所述机架管理单元包括控制逻辑,所述控制逻辑被配置为:
通过基于所述处理器的处理器功耗、所述冷却剂分配单元的冷却功耗和所述数据处理服务的基准性能测量优化目标函数来确定所述液体泵的优化泵速,以及
基于所述优化泵速经由所述泵控制器来控制所述液体泵的泵速。


2.根据权利要求1所述的电子机架,其中,优化所述目标函数包括确定所述优化泵速,使得在满足一组预定约束条件的同时,所述目标函数达到最大值。


3.根据权利要求2所述的电子机架,其中,所述预定约束条件包括:
每个处理器的温度在预定温度范围内的第一条件;以及
所述液体泵的泵速在预定速度范围内的第二条件。


4.根据权利要求2所述的电子机架,其中,所述处理器的处理器功耗表示所述处理器中的每个处理器的功耗之和。


5.根据权利要求4所述的电子机架,其中,基于每个处理器的温度使用第一函数来确定每个处理器的功耗。


6.根据权利要求5所述的电子机架,其中,基于所述液体泵的泵速使用第二函数来确定所述冷却功耗。


7.根据权利要求6所述的电子机架,其中,基于每个处理器的功耗和所述液体泵的泵速使用第三函数来确定每个处理器的温度。


8.根据权利要求7所述的电子机架,其中,所述第三函数还基于所述冷却液的液体温度。


9.根据权利要求2所述的电子机架,其中,基于数据样本的数量和处理所述数据样本的时间使用与所述服务器被配置为执行的所述数据处理服务的类型对应的预定基准系统来确定所述基准性能测量。


10.一种用于确定液体泵的优化泵速以向数据中心的电子机架提供液体冷却的方法,所述方法包括:
确定具有多个刀片服务器的所述电子机架的冷却剂分配单元的所述液体泵的优化泵速,每个刀片服务器包括一个或多个服务器,并且每个服务器包括一个或多个处理器以提供数据处理服务,其中,所述冷却剂分配单元被配置为向所述处理器提供冷却液,所述冷却剂分配单元包括用于控制所述液体泵的泵速的泵控制器,其中,确...

【专利技术属性】
技术研发人员:邵帅高天翼
申请(专利权)人:百度美国有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1