服务器GPU性能调控方法、装置、设备及可读存储介质制造方法及图纸

技术编号:22501877 阅读:13 留言:0更新日期:2019-11-09 02:30
本发明专利技术公开了一种服务器GPU性能调控方法,该方法包括以下步骤:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。应用本发明专利技术实施例所提供的技术方案,保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。本发明专利技术还公开了一种服务器GPU性能调控装置、设备及存储介质,具有相应技术效果。

Methods, devices, devices and readable storage media for regulating the performance of server GPU

The invention discloses a method for regulating the performance of a server GPU, which comprises the following steps: when the server is detected to be started, judge whether the server GPU is in the model training state at present; if not, adjust the fan speed of the server with PID regulation algorithm to regulate the performance of the server GPU; if so, obtain the temperature value of the server GPU; according to the The temperature threshold range of the target GPU starts the corresponding level of regulation policy to regulate the performance of the server GPU; among them, the preset has the corresponding relationship between the temperature threshold range of each GPU and the regulation policy of each level. The technical scheme provided by the embodiment of the invention ensures that the GPU of the server is in a high-performance state, shortens the training time of the model, and improves the training speed of the model. The invention also discloses a server GPU performance control device, device and storage medium, which has corresponding technical effect.

【技术实现步骤摘要】
服务器GPU性能调控方法、装置、设备及可读存储介质
本专利技术涉及计算机应用
,特别是涉及一种服务器GPU性能调控方法、装置、设备及计算机可读存储介质。
技术介绍
在人工智能时代,需要使用各种深度学习框架,在人工智能AI服务器上进行模型训练。由于进行模型训练时,需要对大量数据集进行长时间的训练,同时使用的是分布式集群,可以实现单机多卡,以及多机多卡的分布式训练,所以对人工智能服务器的服务器GPU具有较高的要求。由于训练过程中,服务器GPU始终保持高强度的运算,服务器GPU显存和GPU利用率始终保持高负荷状态,会导致服务器GPU温度过高,而长时间的高温状态,会导致服务器GPU降频,影响模型的训练过程,导致模型训练时间延长,模型训练效率降低。综上所述,如何有效地解决服务器GPU温度升高,导致模型训练时间延长,模型训练效率降低等问题,是目前本领域技术人员急需解决的问题。
技术实现思路
本专利技术的目的是提供一种服务器GPU性能调控方法,该方法保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度;本专利技术的另一目的是提供一种服务器GPU性能调控装置、设备及计算机可读存储介质。为解决上述技术问题,本专利技术提供如下技术方案:一种服务器GPU性能调控方法,包括:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;若是,则获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。在本专利技术的一种具体实施方式中,根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控,包括:当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。在本专利技术的一种具体实施方式中,在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,还包括:对服务器运行环境进行检测,得到检测结果;当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。在本专利技术的一种具体实施方式中,还包括:获取调控效果信息;对所述调控效果信息进行显示操作。一种服务器GPU性能调控装置,包括:判断模块,用于当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;第一调控模块,用于在确定服务器GPU当前未处于模型训练状态时,利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;第二调控模块,用于在确定服务器GPU当前处于模型训练状态时,获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。在本专利技术的一种具体实施方式中,所述第二调控模块包括风扇转速调控子模块和功耗调整子模块,所述风扇转速调控子模块,用于当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;所述功耗调整子模块,用于当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。在本专利技术的一种具体实施方式中,还包括:检测结果获得模块,用于在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,对服务器运行环境进行检测,得到检测结果;信息输出模块,用于当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。在本专利技术的一种具体实施方式中,还包括:信息获取模块,用于获取调控效果信息;显示模块,用于对所述调控效果信息进行显示操作。一种服务器GPU性能调控设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如前所述服务器GPU性能调控方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述服务器GPU性能调控方法的步骤。应用本专利技术实施例所提供的方法,当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对服务器GPU进行性能调控;若是,则获取服务器GPU的温度值;根据温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。通过当服务器未处于模型训练状态时,利用PID调控算法对服务器风扇转速进行调节的方式对服务器GPU进行性能调控,当服务器处于模型训练状态时,根据服务器GPU的温度值启动对应级别的调控策略对服务器GPU进行性能调控,从而保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度。相应的,本专利技术实施例还提供了与上述服务器GPU性能调控方法相对应的服务器GPU性能调控装置、设备和计算机可读存储介质,具有上述技术效果,在此不再赘述。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例中服务器GPU性能调控方法的一种实施流程图;图2为本专利技术实施例中服务器GPU性能调控方法的另一种实施流程图;图3为本专利技术实施例中一种服务器GPU性能调控效果是示意图;图4为本专利技术实施例中一种模型训练任务完成时间与服务器GPU性能的关系图;图5为本专利技术实施例中一种服务器GPU性能调控装置的结构框图;图6为本专利技术实施例中一种服务器GPU性能调控设备的结构框图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面结合附图和具体实施方式对本专利技术作进一步的详细说明。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一:参见图1,图1为本专利技术实施例中服务器GPU性能调控方法的一种实施流程图,该方法可以包括以下步骤:S101:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态,若否,则执行步骤S102,若是,则执行步骤S103。当检测到服务器启动完成时,服务器GPU性能调控装本文档来自技高网
...

【技术保护点】
1.一种服务器GPU性能调控方法,其特征在于,包括:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;若是,则获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。

【技术特征摘要】
1.一种服务器GPU性能调控方法,其特征在于,包括:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;若是,则获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。2.根据权利要求1所述的服务器GPU性能调控方法,其特征在于,根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控,包括:当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。3.根据权利要求1或2所述的服务器GPU性能调控方法,其特征在于,在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,还包括:对服务器运行环境进行检测,得到检测结果;当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。4.根据权利要求3所述的服务器GPU性能调控方法,其特征在于,还包括:获取调控效果信息;对所述调控效果信息进行显示操作。5.一种服务器GPU性能调控装置,其特征在于,包括:判断模块,用于当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;第一调控模块,用于在确定服务器GPU当前未处于模型训练状态时,利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;第二调控...

【专利技术属性】
技术研发人员:王继玉
申请(专利权)人:广东浪潮大数据研究有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1