System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() GPU整板温度和功率控制系统和控制方法技术方案_技高网

GPU整板温度和功率控制系统和控制方法技术方案

技术编号:40202648 阅读:8 留言:0更新日期:2024-02-02 22:15
本申请涉及一种GPU整板温度和功率控制系统和控制方法,其中,该系统包括控制模块、温度监测模块和功率监测模块;温度监测模块,用于将生成的温度监测信号发送至控制模块;功率监测模块,用于将生成的功率监测信号发送至控制模块;控制模块,分别与温度监测模块和功率监测模块连接,用于根据比对特征,对温度监测信号和功率监测信号进行判断,得到判断结果;根据判断结果,控制GPU整板的功率和温度,通过本申请,解决了GPU整板温度和功率的实时监测和控制效果较差问题,降低了GPU整板功耗和温度,保证了GPU的系统性能。

【技术实现步骤摘要】

本申请涉及服务器领域,特别是涉及gpu整板温度和功率控制系统和控制方法。


技术介绍

1、随着gpu的广泛应用促进了ai技术的发展。gpu卡(graphics processing unit)在ai浪潮中快速兴起,成为ai领域应用最广泛、投入产出比最优的异构加速计算解决方案。ai加速卡作为gpu芯片的一个发展方向,随着算力和推理模型的不断提升,导致gpu单颗芯片的功率变得越来越大,目前gpu单颗组件的功率达到百w以上,这对gpu的功率控制和散热设计提出了很大的挑战。gpu在跑大模型和算法时瞬时功率变化是很快的,系统监测不及时可能会导致gpu因功率或是温度过高而异常,时间过长更有可能会烧毁芯片。此时,对gpu卡上的温度和功率进行实时监控变得尤为重要,而现有技术中,gpu整板的温度和功率的实时监测和控制效果较差,影响gpu卡的系统性能和使用寿命。

2、针对相关技术中存在的gpu整板温度和功率的实时监测和控制效果较差问题,目前还没有提出有效的解决方案。


技术实现思路

1、在本实施例中提供了一种gpu整板温度和功率控制系统和控制方法,以解决相关技术中存在的gpu整板温度和功率的实时监测和控制效果较差问题。

2、第一个方面,在本实施例中提供了一种gpu整板温度和功率控制系统,该系统包括控制模块、温度监测模块和功率监测模块;

3、所述温度监测模块,用于将生成的温度监测信号发送至所述控制模块;

4、所述功率监测模块,用于将生成的功率监测信号发送至所述控制模块;

5、所述控制模块,分别与所述温度监测模块和所述功率监测模块连接,用于根据比对特征,对所述温度监测信号和所述功率监测信号进行判断,得到判断结果;根据所述判断结果,控制所述gpu整板的功率和温度;其中,所述比对特征包括断电温度阈值、降频温度阈值、断电电平阈值、降频电平阈值、风口温度阈值和功率阈值。

6、在其中的一些实施例中,所述温度监测模块包括gpu温度监测单元、电源温度监测单元、gpu风口温度监测单元;

7、所述温度监测信号包括第一温度监测信号、第二温度监测信号和第三温度监测信号;

8、所述gpu温度监测单元,与所述控制模块连接,用于将生成的所述第一温度监测信号发送至所述控制模块;

9、所述电源温度监测单元,与所述控制模块连接,用于将生成的所述第二温度监测信号发送至所述控制模块;

10、所述gpu风口温度监测单元,与所述控制模块连接,用于将生成的所述第三温度监测信号发送至所述控制模块。

11、在其中的一些实施例中,所述控制模块包括gpu芯片控制单元和逻辑控制单元;

12、所述gpu芯片控制单元,与所述逻辑控制单元连接;

13、所述逻辑控制单元,分别与所述温度监测模块和所述功率监测模块连接。

14、第二个方面,在本实施例中提供了一种gpu整板温度和功率控制方法,适用于上述第一个方面的gpu整板温度和功率控制系统,包括:

15、通过温度监测模块生成温度监测信号;将所述温度监测信号发送至控制模块;

16、通过功率监测模块生成功率监测信号;将所述功率监测信号发送至所述控制模块;

17、通过所述控制模块,并根据比对特征,对所述温度监测信号和所述功率监测信号进行判断,得到判断结果;根据所述判断结果,控制所述gpu整板的功率和温度;其中,所述比对特征包括断电温度阈值、降频温度阈值、断电电平阈值、降频电平阈值、风口温度阈值和功率阈值。

18、在其中的一些实施例中,所述通过所述温度监测模块生成所述温度监测信号;将所述温度监测信号发送至所述控制模块,包括:

19、通过gpu温度监测单元,生成第一温度监测信号;将所述第一温度监测信号发送至所述控制模块;

20、通过电源温度监测单元,生成第二温度监测信号;将所述第二温度监测信号发送至所述控制模块;

21、通过gpu风口温度监测单元,生成第三温度监测信号;将所述第三温度监测信号发送至所述控制模块。

22、在其中的一些实施例中,所述通过所述控制模块,并根据比对特征,对所述温度监测信号和所述功率监测信号进行判断,得到判断结果;根据判断结果,控制所述gpu整板的功率和温度,包括:

23、通过所述控制模块,并根据所述断电温度阈值和所述降频温度阈值,对第一温度监测信号进行判断,得到第一判断结果;根据所述第一判断结果,控制gpu芯片的温度;

24、通过所述控制模块,并根据所述断电电平阈值和所述降频电平阈值,对第二温度监测信号进行判断,得到第二判断结果;根据所述第二判断结果,控制gpu供电电源的温度;

25、通过所述控制模块,并根据所述风口温度阈值,对第三温度监测信号进行判断,得到第三判断结果;根据所述第三判断结果,控制gpu风口的温度;

26、通过所述控制模块,并根据所述功率阈值,对功率监测信号进行判断,得到第四判断结果;根据所述第四判断结果,控制所述gpu整板的功率。

27、在其中的一些实施例中,所述通过所述控制模块,并根据所述断电温度阈值和所述降频温度阈值,对所述第一温度监测信号进行判断,得到第一判断结果;根据所述第一判断结果,控制gpu芯片的温度,包括:

28、当所述第一温度监测信号大于所述断电温度阈值时,通过逻辑控制单元,对所述gpu整板的电源进行断电;

29、当所述第一温度监测信号小于所述断电温度阈值,大于所述降频温度阈值时,通过所述gpu芯片控制单元,对所述gpu芯片进行降频。

30、在其中的一些实施例中,所述所述通过所述控制模块,并根据所述断电电平阈值和所述降频电平阈值,对所述第二温度监测信号进行判断,得到第二判断结果;根据所述第二判断结果,控制gpu供电电源的温度,包括:

31、当所述第二温度监测信号大于所述断电电平阈值时,通过逻辑控制单元,对所述gpu整板的电源进行断电;

32、当所述第二温度监测信号小于所述断电电平阈值,大于所述降频电平阈值时,通过所述gpu芯片控制单元,对所述gpu芯片进行降频。

33、在其中的一些实施例中,所述通过所述控制模块,并根据所述风口温度阈值,对所述第三温度监测信号进行判断,得到第三判断结果;根据所述第三判断结果,控制gpu风口的温度,包括:

34、当所述第三温度监测信号大于所述风口温度阈值时,通过所述gpu芯片控制单元,对所述gpu芯片进行降频。

35、在其中的一些实施例中,所述通过所述控制模块,并根据所述功率阈值,对所述功率监测信号进行判断,得到第四判断结果;根据所述第四判断结果,控制所述gpu整板的功率,包括:

36、当所述功率监测信号大于所述功率阈值时,通过所述gpu芯片控制单元,对所述gpu芯片进行降频。

37、与相关技术相比,在本实施例中提供的gpu整板温度和功率本文档来自技高网...

【技术保护点】

1.一种GPU整板温度和功率控制系统,其特征在于,该系统包括控制模块、温度监测模块和功率监测模块;

2.根据权利要求1所述的GPU整板温度和功率控制系统,其特征在于,所述温度监测模块包括GPU温度监测单元、电源温度监测单元、GPU风口温度监测单元;

3.根据权利要求1所述的GPU整板温度和功率控制系统,其特征在于,所述控制模块包括GPU芯片控制单元和逻辑控制单元;

4.一种GPU整板温度和功率控制方法,适用于权利要求1至3任一项所述的GPU整板温度和功率控制系统,其特征在于,包括:

5.根据权利要求4所述的GPU整板温度和功率控制方法,其特征在于,所述通过所述温度监测模块生成所述温度监测信号;将所述温度监测信号发送至所述控制模块,包括:

6.根据权利要求4所述的GPU整板温度和功率控制方法,其特征在于,所述通过所述控制模块,并根据比对特征,对所述温度监测信号和所述功率监测信号进行判断,得到判断结果;根据判断结果,控制所述GPU整板的功率和温度,包括:

7.根据权利要求6所述的GPU整板温度和功率控制方法,其特征在于,所述通过所述控制模块,并根据所述断电温度阈值和所述降频温度阈值,对所述第一温度监测信号进行判断,得到第一判断结果;根据所述第一判断结果,控制GPU芯片的温度,包括:

8.根据权利要求6所述的GPU整板温度和功率控制方法,其特征在于,所述通过所述控制模块,并根据所述断电电平阈值和所述降频电平阈值,对所述第二温度监测信号进行判断,得到第二判断结果;根据所述第二判断结果,控制GPU供电电源的温度,包括:

9.根据权利要求6所述的GPU整板温度和功率控制方法,其特征在于,所述通过所述控制模块,并根据所述风口温度阈值,对所述第三温度监测信号进行判断,得到第三判断结果;根据所述第三判断结果,控制GPU风口的温度,包括:

10.根据权利要求6所述的GPU整板温度和功率控制方法,其特征在于,所述通过所述控制模块,并根据所述功率阈值,对所述功率监测信号进行判断,得到第四判断结果;根据所述第四判断结果,控制所述GPU整板的功率,包括:

...

【技术特征摘要】

1.一种gpu整板温度和功率控制系统,其特征在于,该系统包括控制模块、温度监测模块和功率监测模块;

2.根据权利要求1所述的gpu整板温度和功率控制系统,其特征在于,所述温度监测模块包括gpu温度监测单元、电源温度监测单元、gpu风口温度监测单元;

3.根据权利要求1所述的gpu整板温度和功率控制系统,其特征在于,所述控制模块包括gpu芯片控制单元和逻辑控制单元;

4.一种gpu整板温度和功率控制方法,适用于权利要求1至3任一项所述的gpu整板温度和功率控制系统,其特征在于,包括:

5.根据权利要求4所述的gpu整板温度和功率控制方法,其特征在于,所述通过所述温度监测模块生成所述温度监测信号;将所述温度监测信号发送至所述控制模块,包括:

6.根据权利要求4所述的gpu整板温度和功率控制方法,其特征在于,所述通过所述控制模块,并根据比对特征,对所述温度监测信号和所述功率监测信号进行判断,得到判断结果;根据判断结果,控制所述gpu整板的功率和温度,包括:

<...

【专利技术属性】
技术研发人员:朱绍朋陈燕东李忠磊孙册
申请(专利权)人:云尖信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1