The invention discloses a method for regulating the performance of a server GPU, which comprises the following steps: when the server is detected to be started, judge whether the server GPU is in the model training state at present; if not, adjust the fan speed of the server with PID regulation algorithm to regulate the performance of the server GPU; if so, obtain the temperature value of the server GPU; according to the The temperature threshold range of the target GPU starts the corresponding level of regulation policy to regulate the performance of the server GPU; among them, the preset has the corresponding relationship between the temperature threshold range of each GPU and the regulation policy of each level. The technical scheme provided by the embodiment of the invention ensures that the GPU of the server is in a high-performance state, shortens the training time of the model, and improves the training speed of the model. The invention also discloses a server GPU performance control device, device and storage medium, which has corresponding technical effect.
【技术实现步骤摘要】
服务器GPU性能调控方法、装置、设备及可读存储介质
本专利技术涉及计算机应用
,特别是涉及一种服务器GPU性能调控方法、装置、设备及计算机可读存储介质。
技术介绍
在人工智能时代,需要使用各种深度学习框架,在人工智能AI服务器上进行模型训练。由于进行模型训练时,需要对大量数据集进行长时间的训练,同时使用的是分布式集群,可以实现单机多卡,以及多机多卡的分布式训练,所以对人工智能服务器的服务器GPU具有较高的要求。由于训练过程中,服务器GPU始终保持高强度的运算,服务器GPU显存和GPU利用率始终保持高负荷状态,会导致服务器GPU温度过高,而长时间的高温状态,会导致服务器GPU降频,影响模型的训练过程,导致模型训练时间延长,模型训练效率降低。综上所述,如何有效地解决服务器GPU温度升高,导致模型训练时间延长,模型训练效率降低等问题,是目前本领域技术人员急需解决的问题。
技术实现思路
本专利技术的目的是提供一种服务器GPU性能调控方法,该方法保证了服务器GPU处于高性能状态,缩短了模型训练时长,提高了模型训练速度;本专利技术的另一目的是提供一种服务器GPU性能调控装置、设备及计算机可读存储介质。为解决上述技术问题,本专利技术提供如下技术方案:一种服务器GPU性能调控方法,包括:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;若是,则获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预 ...
【技术保护点】
1.一种服务器GPU性能调控方法,其特征在于,包括:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;若是,则获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。
【技术特征摘要】
1.一种服务器GPU性能调控方法,其特征在于,包括:当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;若否,则利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;若是,则获取所述服务器GPU的温度值;根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控;其中,预设有各GPU温度阈值范围与各级别调控策略之间的对应关系。2.根据权利要求1所述的服务器GPU性能调控方法,其特征在于,根据所述温度值所属的目标GPU温度阈值范围,启动对应级别的调控策略对所述服务器GPU进行性能调控,包括:当所述温度值处于低级GPU温度阈值范围或中级GPU温度阈值范围时,通过将所述服务器风扇转速调控到对应级别对所述服务器GPU进行性能调控;当所述温度值处于高级GPU温度阈值范围时,利用高级服务器风扇转速对所述服务器GPU进行性能调控;若利用所述高级服务器风扇转速对所述服务器GPU进行性能调控预设时长后,所述服务器GPU的温度值未低于预设温度值,则将所述服务器GPU的功耗调整到预设额定功耗。3.根据权利要求1或2所述的服务器GPU性能调控方法,其特征在于,在检测到服务器启动完成之后,判断服务器GPU当前是否处于模型训练状态之前,还包括:对服务器运行环境进行检测,得到检测结果;当根据所述检测结果确定服务器驱动和工具版本有误时,输出安装正确服务器驱动和工具版本的提示信息。4.根据权利要求3所述的服务器GPU性能调控方法,其特征在于,还包括:获取调控效果信息;对所述调控效果信息进行显示操作。5.一种服务器GPU性能调控装置,其特征在于,包括:判断模块,用于当检测到服务器启动完成时,判断服务器GPU当前是否处于模型训练状态;第一调控模块,用于在确定服务器GPU当前未处于模型训练状态时,利用PID调控算法调节服务器风扇转速对所述服务器GPU进行性能调控;第二调控...
【专利技术属性】
技术研发人员:王继玉,
申请(专利权)人:广东浪潮大数据研究有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。