AI服务器散热调控方法、系统、终端及存储介质技术方案

技术编号:32266118 阅读:19 留言:0更新日期:2022-02-12 19:28
本发明专利技术提供一种AI服务器散热调控方法、系统、终端及存储介质,包括:利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。本发明专利技术能够对具有多种硬件的AI服务器进行有效散热,通过无需客户感知的方式,解决了硬件设备增多带来的整机散热风险。件设备增多带来的整机散热风险。件设备增多带来的整机散热风险。

【技术实现步骤摘要】
AI服务器散热调控方法、系统、终端及存储介质


[0001]本专利技术涉及服务器
,具体涉及一种AI服务器散热调控方法、系统、终端及存储介质。

技术介绍

[0002]深度学习,机器学习和高性能计算(HPC)正在改变着我们的世界。从自动驾驶汽车,优化零售物流到全球气候模拟,新的挑战正在出现,其解决方案需要巨大的计算资源。NVIDIA于2020年推出了HGX

2Next产品,是能够处理计算量最大的工作负载并实现“世界上最大的GPU”。它由16个A100GPU和NVIDIA NV Switch
TM
加速,具有前所未有的计算能力,带宽和内存拓扑,可以更快,更高效地训练海量模型,分析数据集和解决模拟问题。
[0003]依托于HGX2

Next硬件,服务器厂商可以研发出性能更为强劲的AI服务器,同时,它也对整机散热提出了更大的挑战。与传统服务器不同,除了CPU、内存、硬盘、Raid卡等关键部件,AI服务器上的GPU和周围硬件(如交换芯片)运转频率密集会产生更大的热量。部件增多让软件的访问速度变慢,可能会造成散热上的不及时,造成服务器超温。
[0004]现有的常规服务器通常采用单BMC控制服务器散热。对于硬件结构简单的服务器,单BMC控制服务器散热的方式已经足够满足需求。但是对于硬件和功能上更为复杂的高算力AI服务器,显得捉襟见肘。部件越多,获取温度的速度越慢,对于复杂设备(如Raid控制器)需要消耗更多的程序时间,调控的不及时可能会造成整机散热上的风险

技术实现思路

[0005]针对现有技术的上述不足,本专利技术提供一种AI服务器散热调控方法、系统、终端及存储介质,以解决上述技术问题。
[0006]第一方面,本专利技术提供一种AI服务器散热调控方法,包括:
[0007]利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;
[0008]所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;
[0009]所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。
[0010]进一步的,利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速,包括:
[0011]所述第一BMC定期采集GPU温度及GPU关联硬件温度,并将GPU温度及GPU关联硬件温度的加权和作为第一温度;
[0012]所述第一BMC根据本地存储的第一调控策略和所述第一温度计算第一目标转速。
[0013]进一步的,所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二
目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成,包括:
[0014]所述第一BMC定期接收第二BMC发送的第二目标转速,所述第二BMC根据定期采集的主板关联硬件的第二温度和第二调控策略计算出第二目标转速,所述主板关联硬件包括CPU、内存、硬盘和磁盘阵列卡;
[0015]所述第一BMC将最新接收的第二目标转速缓存至指定路径。
[0016]进一步的,所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器;
[0017]所述第一BMC从第一目标转速和第二目标转速中选取较大值作为目标转速;
[0018]从风扇控制器采集风扇实际转速,根据目标转速与风扇实际转速的差值生成风扇调控信号,并将风扇调控信号发送至风扇控制器。
[0019]第二方面,本专利技术提供一种AI服务器散热调控系统,包括:
[0020]第一监控单元,用于利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;
[0021]第二监控单元,用于所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;
[0022]风扇调控单元,用于所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。
[0023]进一步的,所述第一监控单元包括:
[0024]第一监控模块,用于所述第一BMC定期采集GPU温度及GPU关联硬件温度,并将GPU温度及GPU关联硬件温度的加权和作为第一温度;
[0025]第一计算模块,用于所述第一BMC根据本地存储的第一调控策略和所述第一温度计算第一目标转速。
[0026]进一步的,所述第二监控单元包括:
[0027]第二监控模块,用于所述第一BMC定期接收第二BMC发送的第二目标转速,所述第二BMC根据定期采集的主板关联硬件的第二温度和第二调控策略计算出第二目标转速,所述主板关联硬件包括CPU、内存、硬盘和磁盘阵列卡;
[0028]转速存储模块,用于所述第一BMC将最新接收的第二目标转速缓存至指定路径。
[0029]进一步的,所述风扇调控单元包括:
[0030]转速确定模块,用于所述第一BMC从第一目标转速和第二目标转速中选取较大值作为目标转速;
[0031]信号发送模块,用于从风扇控制器采集风扇实际转速,根据目标转速与风扇实际转速的差值生成风扇调控信号,并将风扇调控信号发送至风扇控制器。
[0032]第三方面,提供一种终端,包括:
[0033]处理器、存储器,其中,
[0034]该存储器用于存储计算机程序,
[0035]该处理器用于从存储器中调用并运行该计算机程序,使得终端执行上述的终端的方法。
[0036]第四方面,提供了一种计算机存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
[0037]本专利技术的有益效果在于,本专利技术提供的AI服务器散热调控方法、系统、终端及存储介质,通过在同步一台AI服务器上部署两颗BMC硬件(分别称之为主板BMC和交换板BMC),主板BMC用于监控传统服务器上的CPU、内存、硬盘、Raid卡等关键部件,交换板BMC用于监控GPU和周围硬件并且可以直接控制风扇,两颗BMC通过I2C线缆作为硬件通信介质,无需客户感知。主板BMC用于监控主板上的硬件温度器件,并根据PID调控算法计算出主板散热需要的风扇转速(记为pwm1),通过I2C协议发送给交换板BMC;交换板BMC用于监控GPU和周边硬件器件温度,根据PID调控算法计算出GPU和周边硬件散热需要的风扇转速(记为pwm2),取pwm1和pwm2的最大值控制风扇转动,满足整机散热。本专利技术能够对具有多种硬件的AI服务器进行有效散热,通过无需客户感知的方式,解决了硬件设备增多带来的整机散热风险。
[0038]此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种AI服务器散热调控方法,其特征在于,包括:利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速;所述第一BMC接收第二BMC通过I2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成;所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器。2.根据权利要求1所述的方法,其特征在于,利用设置在交换板的第一BMC监控GPU及GPU关联硬件的第一温度,并根据所述第一温度生成第一目标转速,包括:所述第一BMC定期采集GPU温度及GPU关联硬件温度,并将GPU温度及GPU关联硬件温度的加权和作为第一温度;所述第一BMC根据本地存储的第一调控策略和所述第一温度计算第一目标转速。3.根据权利要求1所述的方法,其特征在于,所述第一BMC接收第二BMC通过I 2C总线发送的第二目标转速,所述第二目标转速由第二BMC根据监控到的主板关联硬件的第二温度生成,包括:所述第一BMC定期接收第二BMC发送的第二目标转速,所述第二BMC根据定期采集的主板关联硬件的第二温度和第二调控策略计算出第二目标转速,所述主板关联硬件包括CPU、内存、硬盘和磁盘阵列卡;所述第一BMC将最新接收的第二目标转速缓存至指定路径。4.根据权利要求1所述的方法,其特征在于,所述第一BMC根据第一目标转速和第二目标转速生成风扇调控信号,并将所述风扇调控信号发送至风扇控制器;所述第一BMC从第一目标转速和第二目标转速中选取较大值作为目标转速;从风扇控制器采集风扇实际转速,根据目标转速与风扇实际转速的差值生成风扇调控信号,并将风扇调控信号发送至风扇控制器。5.一种AI服务器散热调控系统,其特征在于,包括:第一监控单元,用于利用设置在交换板的第一BMC监控GPU及G...

【专利技术属性】
技术研发人员:王龙飞
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1