一种控制GPU降频的方法、装置和计算机可读存储介质制造方法及图纸

技术编号:18496859 阅读:49 留言:0更新日期:2018-07-21 20:04
本发明专利技术实施例公开了一种控制GPU降频的方法、装置和计算机可读存储介质,BMC获取GPU的温度值;判断所述温度值是否超过预设阈值;当所述温度值超过所述预设阈值时,则说明当前GPU的温度较高,若不及时采取措施,可能会导致GPU的损坏,此时,BMC会向所述GPU输入电平指令,以实现所述GPU的降频,当GPU的频率降低后,其运行速度会下降,相应的其温度增长速率会下降,从而有效的控制GPU温度的增长,实现保护GPU的目的。BMC控制GPU降频是独立于GPU内部保护机制的外保护方法,其与GPU内部的保护机制共同作用,为GPU提供双保险,最大限度的保护GPU。

A method, device and computer readable storage medium for controlling GPU frequency reduction

An embodiment of the invention discloses a method, a device and a computer readable storage medium for controlling the frequency reduction of GPU. The BMC obtains the temperature value of the GPU; determines whether the temperature value is more than the preset threshold value; when the temperature value exceeds the preset threshold, the temperature of the current GPU is higher, and if the measures are not taken in time, it may lead. When the GPU is damaged, at this time, BMC will input the level instruction to the GPU to achieve the reduced frequency of the GPU. When the frequency of GPU is reduced, its running speed will decline and the corresponding temperature growth rate will decrease, thus effectively controlling the increase of the GPU temperature and realizing the protection of the GPU. BMC control GPU reduction is an external protection method which is independent of the internal protection mechanism of GPU. It works together with the protection mechanism within the GPU, providing double insurance for GPU and maximizing the protection of GPU.

【技术实现步骤摘要】
一种控制GPU降频的方法、装置和计算机可读存储介质
本专利技术涉及服务器
,特别是涉及一种控制GPU降频的方法、装置和计算机可读存储介质。
技术介绍
图形处理单元(GraphicsProcessingUnit,GPU)又称显示核心、视觉处理器、显示芯片,是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。随着人工智能(ArtificialIntelligence,AI)服务器应用的日益广泛,GPU作为AI服务器中价格较昂贵的硬件也在不断地被投入使用。如何能够最大限度的延长GPU的使用寿命和发挥GPU的性能,成为了一个可研究的话题。GPU温度是影响GPU的使用寿命和GPU性能的重要因素,当GPU温度过高时,会影响其工作性能,严重时会造成GPU损坏。现有技术中,在GPU内部设置有保护机制,当GPU温度过高时,该保护机制进行降频处理,以保护GPU。由于GPU的内部保护机制不透明,仅依靠GPU内部保护机制进行降频,在安全性上得不到把控。可见,如何提升GPU的安全性,是本领域技术人员亟待解决的问题。
技术实现思路
本专利技术实施例的目的是提供一种控制GPU降频的方法、装置和计算机可读存储介质,可以提升GPU的安全性。为解决上述技术问题,本专利技术实施例提供一种控制GPU降频的方法,包括:获取GPU的温度值;判断所述温度值是否超过预设阈值;当所述温度值超过所述预设阈值时,向所述GPU输入电平指令,以实现所述GPU的降频。可选的,还包括:判断所述温度值是否超过预设极限值;当所述温度值超过所述预设极限值时,执行系统掉电操作。可选的,还包括:统计预设时间段内向所述GPU发送温度获取指令的总次数,以及温度值超过所述预设阈值的超温次数;当所述超温次数和所述总次数满足预设条件时,进行报警提示。可选的,所述当所述超温次数和所述总次数满足预设条件时,进行报警提示包括:计算所述超温次数和所述总次数的比值;当所述比值超过预先设定的标准值时,进行报警提示。可选的,所述向GPU发送温度获取指令包括:通过总线向所述GPU发送温度获取指令。本专利技术实施例还提供了一种控制GPU降频的装置,包括获取单元、判断单元和输入单元;所述获取单元,用于获取GPU的温度值;所述判断单元,用于判断所述温度值是否超过预设阈值;所述输入单元,用于当所述温度值超过所述预设阈值时,向所述GPU输入电平指令,以实现所述GPU的降频。可选的,所述获取单元具体用于通过总线向所述GPU发送温度获取指令。可选的,还包括掉电单元;所述判断单元还用于判断所述温度值是否超过预设极限值;所述掉电单元,用于当所述温度值超过所述预设极限值时,执行系统掉电操作。可选的,还包括统计单元和提示单元;所述统计单元,用于统计预设时间段内向所述GPU发送温度获取指令的总次数,以及温度值超过所述预设阈值的超温次数;所述提示单元,用于当所述超温次数和所述总次数满足预设条件时,进行报警提示。可选的,所述提示单元具体用于计算所述超温次数和所述总次数的比值;当所述比值超过预先设定的标准值时,进行报警提示。本专利技术实施例还提供了一种控制GPU降频的装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序以实现如上述控制GPU降频的方法的步骤。本专利技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述控制GPU降频的方法的步骤。由上述技术方案可以看出,BMC获取GPU的温度值;判断所述温度值是否超过预设阈值;当所述温度值超过所述预设阈值时,则说明当前GPU的温度较高,若不及时采取措施,可能会导致GPU的损坏,此时,BMC会向所述GPU输入电平指令,以实现所述GPU的降频,当GPU的频率降低后,其运行速度会下降,相应的其温度增长速率会下降,从而有效的控制GPU温度的增长,实现保护GPU的目的。BMC控制GPU降频是独立于GPU内部保护机制的外保护方法,其与GPU内部的保护机制共同作用,为GPU提供双保险,最大限度的保护GPU。附图说明为了更清楚地说明本专利技术实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种控制GPU降频的方法的流程图;图2为本专利技术实施例提供的一种控制GPU降频的装置的结构示意图;图3为本专利技术实施例提供的一种控制GPU降频的装置的硬件结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本专利技术保护范围。为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。接下来,详细介绍本专利技术实施例所提供的一种控制GPU降频的方法。图1为本专利技术实施例提供的一种控制GPU降频的方法的流程图,该方法包括:S101:获取GPU的温度值。基板管理控制器(BaseboardManagementController,BMC),可以实现服务器的远程管理控制。在本专利技术实施例中,利用BMC建立对GPU的外部保护机制。在具体实现中,可以将BMC和GPU的降频引脚通过总线互联,BMC通过总线向所述GPU发送温度获取指令,GPU接收到BMC发送的温度获取指令后,通过总线将GPU当前的温度值反馈给BMC。GPU当前的温度值反映了GPU的工作状态,当该温度值较高时,说明GPU处于较高负荷的运行状态,为了保证GPU的安全运行,可能需要对其进行降频处理。S102:判断所述温度值是否超过预设阈值。在本专利技术实施例中,通过判断GPU当前的温度值是否超过预设阈值,作为是否对GPU进行降频处理的依据。预设阈值用于表示GPU温度的一个警戒值,预设阈值的具体取值可以依据实际需求进行设定,在此不做限定。当GPU当前的温度值超过该预设阈值时,说明GPU的温度已达到其安全运行的警戒值,如果不采取相应的处理措施,GPU的温度可能会持续升高,从而对GPU的性能以及安全性带来影响。故此,当GPU当前的温度值超过该预设阈值时,BMC可以对GPU进行降频处理,从而降低GPU温度的增长速率,也即当所述温度值超过所述预设阈值时,执行S104。S103:向所述GPU输入电平指令,以实现所述GPU的降频。电平指令中可以携带有需要向GPU输入的电平值。正常工作状态下,GPU的降频引脚处于高电平,BMC向GPU的降频引脚输入低电平,可以主动拉低GPU的降频引脚的电压值,从而实现对GPU的降频处理。当GPU的频率降低后,相应的,GPU的温度增长速率会下降,实现对GPU温度的控制,达到保护GPU的目的。由上述技术方案可以看出,BMC获取GPU的温度值;判断所述温度值是否超过预设阈值;当所述温度值超过所述预设阈值时,则说明当前GPU的温度较高,若不及时采取措施,可能会导致GPU的损坏,此时,BMC会向所述GPU输入电平指令,以实现所述GPU的降本文档来自技高网
...

【技术保护点】
1.一种控制GPU降频的方法,其特征在于,包括:获取GPU的温度值;判断所述温度值是否超过预设阈值;当所述温度值超过所述预设阈值时,向所述GPU输入电平指令,以实现所述GPU的降频。

【技术特征摘要】
1.一种控制GPU降频的方法,其特征在于,包括:获取GPU的温度值;判断所述温度值是否超过预设阈值;当所述温度值超过所述预设阈值时,向所述GPU输入电平指令,以实现所述GPU的降频。2.根据权利要求1所述的方法,其特征在于,还包括:判断所述温度值是否超过预设极限值;当所述温度值超过所述预设极限值时,执行系统掉电操作。3.根据权利要求1或2所述的方法,其特征在于,还包括:统计预设时间段内向所述GPU发送温度获取指令的总次数,以及温度值超过所述预设阈值的超温次数;当所述超温次数和所述总次数满足预设条件时,进行报警提示。4.根据权利要求3所述的方法,其特征在于,所述当所述超温次数和所述总次数满足预设条件时,进行报警提示包括:计算所述超温次数和所述总次数的比值;当所述比值超过预先设定的标准值时,进行报警提示。5.根据权利要求1所述的方法,其特征在于,所述向GPU发送温度获取指令包括:通过总线向所述GPU发送温度获取指令。6.一种控制GPU降频的装置...

【专利技术属性】
技术研发人员:韩增福易凌鹰
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1