本申请公开了一种GPU服务器的功耗控制方法、系统、电子设备及计算机可读存储介质,PSU的alert信号线与PCH的GPIO接口连接,该功耗控制方法包括:按预设规则获取GPIO接口的电平状态;判断电平状态是否满足降频条件;若是,通过操作系统管理软件生成降频指令,以便对CPU和GPU进行降频处理。本申请能够实时监测GPU服务器的系统功耗动态变化,通过操作系统管理软件将硬件底层传递过来的信号,快速转化为系统软件指令,对GPU/CPU关键部件执行降频操作,从而降低系统功耗,相比现有技术中使用IO降频,系统指令可以灵活快速控制关键部件CPU、GPU降频,最大程度保证GPU服务器的系统性能。
【技术实现步骤摘要】
一种GPU服务器的功耗控制方法、系统及相关组件
本申请涉及GPU服务器领域,特别涉及一种GPU服务器的功耗控制方法、系统及相关组件。
技术介绍
在AI、大数据、云计算时代,各行各业都在着力搭建高效率、低成本的数据管理、运行模式,以获取更大的投资回报率。所以,GPU(GraphicsProcessingUnit,图形处理器)服务器在AI浪潮中快速兴起,成为AI领域应用最广泛、投入产出比最优的异构加速计算解决方案。GPU服务器结合了GPU并行计算能力强和CPU逻辑控制的优势,根据实际应用场景的需求,满足计算单元、Cache、控制器等关键模块的配置。GPU服务器现有的技术方案中,由于GPU内部集成了大量的计算单元ALU,单颗GPU组件的功耗最高可达到约300W,在进行类似EDPP(ElectricalDevicePeakPower,电气设备峰值功率)这种特殊的测试时,瞬间功耗可以超过700W。若单颗GPU功耗过高,当配置多颗GPU时,系统总功耗可能超过单颗PSU的最大功耗,导致GPU服务器掉电;且GPU在进行高速并行计算时,GPU功耗动态变化非常快,对于PSU(PowerSupplyUnit,电源供应器)的瞬态响应能力要求很高,而实际现有的GPU/PSU在瞬态响应参数方面难以匹配;现有GPU服务器系统功耗信息,通过I2C(Inter-IntegratedCircuit,两线式串行总线)总线由BMC(BaseboardManagementController,基板管理控制器)以轮询的形式读取,实时性及稳定性差,无法做到快速的功耗控制。因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
技术实现思路
本申请的目的是提供一种GPU服务器的功耗控制方法、系统、电子设备及计算机可读存储介质,能够实时监测GPU服务器的系统功耗动态变化,通过操作系统管理软件将硬件底层传递过来的信号,快速转化为系统软件指令,对GPU/CPU关键部件执行降频操作,从而降低系统功耗,最大程度保证GPU服务器的系统性能。为解决上述技术问题,本申请提供了一种GPU服务器的功耗控制方法,所述GPU服务器包括PSU、PCH、CPU和GPU,所述PSU的alert信号线与所述PCH的GPIO接口连接,该功耗控制方法包括:按预设规则获取所述GPIO接口的电平状态;判断所述电平状态是否满足降频条件;若是,通过操作系统管理软件生成降频指令,以便对所述CPU和所述GPU进行降频处理。优选的,所述按预设规则获取所述GPIO接口的电平状态的过程具体为:通过中断获取所述GPIO接口的电平状态。优选的,所述降频条件为所述电平状态为低电平状态。优选的,所述通过操作系统管理软件生成降频指令,以便对所述CPU和所述GPU进行降频处理的过程具体为:通过CPUpower工具和NVIDIA-SMI工具接收所述降频指令,然后分别通过所述CPUpower工具和所述NVIDIA-SMI工具对所述CPU和所述GPU进行降频处理。优选的,该功耗控制方法还包括:获取所述CPU和所述GPU各自对应的特性数据,所述特性数据包括CPU的目标频率值及所述GPU的目标频率值;相应的,所述通过操作系统管理软件生成降频指令,以便对所述CPU和所述GPU进行降频处理的过程具体为:通过操作系统管理软件将所述CPU的频率和所述GPU的频率降低至与其各自对应的目标频率值。优选的,该功耗控制方法还包括:实时监测系统功耗;当系统功耗低于预设功耗,释放alert信号。为解决上述技术问题,本申请还提供了一种GPU服务器的功耗控制系统,所述GPU服务器包括PSU、PCH、CPU和GPU,所述PSU的alert信号线与所述PCH的GPIO接口连接,该功耗控制系统包括:获取模块,用于按预设规则获取所述GPIO接口的电平状态;判断模块,用于判断所述电平状态是否满足降频条件,若是,触发降频模块;所述降频模块,用于通过操作系统管理软件生成降频指令,以便对所述CPU和所述GPU进行降频处理。优选的,所述获取模块具体用于:通过中断获取所述GPIO接口的电平状态。为解决上述技术问题,本申请还提供了一种电子设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上文任意一项所述的功耗控制方法的步骤。为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上文任意一项所述的功耗控制方法的步骤。本申请提供了一种GPU服务器的功耗控制方法,利用系统在运行时,若实时功耗超过PSU的最大功耗,PSU会在切断电源前12ms生成alert信号,通过监测是否存在alert信号来监测系统功耗动态变化,通过操作系统管理软件将硬件底层传递过来的信号,快速转化为系统软件指令,对GPU/CPU关键部件执行降频操作,从而降低系统功耗,相比现有技术中使用IO降频,系统指令可以灵活快速控制关键部件CPU、GPU降频,最大程度保证GPU服务器的系统性能。本申请还提供了一种GPU服务器的功耗控制系统、电子设备及计算机可读存储介质,具有和上述功耗控制方法相同的有益效果。附图说明为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请所提供的一种GPU服务器的结构示意图;图2为本申请所提供的一种GPU服务器的功耗控制方法的步骤流程图;图3为本申请所提供的一种GPU服务器的功耗控制系统的结构示意图。具体实施方式本申请的核心是提供一种GPU服务器的功耗控制方法、系统、电子设备及计算机可读存储介质,能够实时监测GPU服务器的系统功耗动态变化,通过操作系统管理软件将硬件底层传递过来的信号,快速转化为系统软件指令,对GPU/CPU关键部件执行降频操作,从而降低系统功耗,最大程度保证GPU服务器的系统性能。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。为便于理解本申请所提供的功耗控制方法,对本申请所提供的功耗控制方法所适用的GPU服务器进行介绍,请参照图1,图1为本申请所提供的一种GPU服务器的结构示意图,该GPU服务器包括CPU1,CPU0,GPU1,GPU2,PCH,CPLD,BMC,PSU0及PSU1等功能模块。其中,每个CPU可以最大支持64lan本文档来自技高网...
【技术保护点】
1.一种GPU服务器的功耗控制方法,其特征在于,所述GPU服务器包括PSU、PCH、CPU和GPU,所述PSU的alert信号线与所述PCH的GPIO接口连接,该功耗控制方法包括:/n按预设规则获取所述GPIO接口的电平状态;/n判断所述电平状态是否满足降频条件;/n若是,通过操作系统管理软件生成降频指令,以便对所述CPU和所述GPU进行降频处理。/n
【技术特征摘要】
1.一种GPU服务器的功耗控制方法,其特征在于,所述GPU服务器包括PSU、PCH、CPU和GPU,所述PSU的alert信号线与所述PCH的GPIO接口连接,该功耗控制方法包括:
按预设规则获取所述GPIO接口的电平状态;
判断所述电平状态是否满足降频条件;
若是,通过操作系统管理软件生成降频指令,以便对所述CPU和所述GPU进行降频处理。
2.根据权利要求1所述的功耗控制方法,其特征在于,所述按预设规则获取所述GPIO接口的电平状态的过程具体为:
通过中断获取所述GPIO接口的电平状态。
3.根据权利要求1所述的功耗控制方法,其特征在于,所述降频条件为所述电平状态为低电平状态。
4.根据权利要求1所述的功耗控制方法,其特征在于,所述通过操作系统管理软件生成降频指令,以便对所述CPU和所述GPU进行降频处理的过程具体为:
通过CPUpower工具和NVIDIA-SMI工具接收所述降频指令,然后分别通过所述CPUpower工具和所述NVIDIA-SMI工具对所述CPU和所述GPU进行降频处理。
5.根据权利要求1所述的功耗控制方法,其特征在于,该功耗控制方法还包括:
获取所述CPU和所述GPU各自对应的特性数据,所述特性数据包括CPU的目标频率值及所述GPU的目标频率值;
相应的,所述通过操作系统管理软件生成降频指令,以便对所述CP...
【专利技术属性】
技术研发人员:程世超,王鹏,
申请(专利权)人:苏州浪潮智能科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。