一种检测服务器环境温度监控可靠性的方法技术

技术编号:18458617 阅读:231 留言:0更新日期:2018-07-18 12:38
本发明专利技术实施例公开了一种检测服务器环境温度监控可靠性的方法,包括,读取BMC芯片记录的显示温度;读取温度传感器的寄存器信息获取实际温度;将所述显示温度与实际温度进行对比;每隔一时间重复读取显示温度与实际温度,并进行对比。通过对记录的温度信息对比分析,可以看出温度传感器的长期运行稳定性,同时,可以在不同的外界环境中使用脚本进行测试,模拟在不同的数据中心环境中,服务器环境温度监控的稳定性。使用带内执行脚本的方式,可以对不同外界环境下的温度监控稳定性进行便捷的测试,能够更直接的模拟数据中心的环境,提前识别出服务器潜在风险,大大降低机器的故障率。

A method to detect the reliability of server environment temperature monitoring

An embodiment of the invention discloses a method for detecting the reliability of the temperature monitoring of the server environment, including reading the display temperature of the BMC chip record, reading the register information of the temperature sensor to obtain the actual temperature, comparing the display temperature to the actual temperature, and repeating the display temperature and the actual temperature every other time. Degree, and compare. By comparing and analyzing the recorded temperature information, we can see the long-term stability of the temperature sensor. At the same time, the script can be tested in different external environment, and the stability of the temperature monitoring of the server environment is simulated in the different data center environment. Using in band execution script, it can test the stability of temperature monitoring in different environment. It can simulate the environment of data center more directly, identify the potential risk of the server in advance, and greatly reduce the failure rate of the machine.

【技术实现步骤摘要】
一种检测服务器环境温度监控可靠性的方法
本专利技术涉及服务器检测领域。
技术介绍
随着大数据、云计算、人工智能时代的到来,互联网业务量和数据量出现猛烈增长,计算量也随之增大;在服务器系统中,随着数据量的增加,服务器的部署数量越来越大,密度越来越高,运载压力也越来越大,其核心部件的发热量变大,机器内部温度升高,核心部件所能承受的温度是有一定限制的,如果长时间运行在温度较高的环境中,元器件的性能会降低,寿命下降,导致服务器的寿命减少。在服务器运行过程中,如果环境温度过高,会导致服务器整体工作在一个高温环境中,此时CPU等核心部件本体的温度会更高,当CPU的温度达到一定高度时,服务器就会发生降频,严重影响服务器的计算性能;如果温度继续升高,服务器会发生异常关机,由此所引发的后果则是客户的业务中断,数据丢失,造成的损失不可预估。这就对于服务器的环境温度监控及温度监控器件的可靠性提出了更高的要求。服务器系统中,我们通常使用BMC(基板管理控制器:BaseboardManagementController)来对主板的健康状况进行监控和管理。主板上的一些重要的参数如电压、温度、功耗等都是通过BMC监控记录的。服务器环境温度的监控链路是由两部分构成:一是温度传感器及外挂三极管,二是BMC芯片;首先温度传感器会收集本身内部三极管及外挂三极管的温度信息,并将之存放在不同的寄存器中,其次BMC芯片通过I2Cbus来收集温度传感器中的寄存器信息,并在BMC芯片内部进行转化计算形成我们能够识别的摄氏度,进而实现主板温度信息的收集及监控。根据收集到的温度信息,BMC会结合风扇调控策略,进行风扇转速的调整来保证正常散热,但是风扇转速提升的同时,会影响到整机的振动以及整机的功耗,对于客户的数据中心是不能够接受的,因此,要确保环境温度监控的稳定性及可靠性,对服务器环境温度监控可靠性进行检测具有重要意义。
技术实现思路
本专利技术为解决对服务器环境温度监控可靠性进行检测的技术问题。为此,本专利技术提供一种检测服务器环境温度监控可靠性的方法,它具有方便快捷的实现在不同的外界环境中对环境温度监控的长期稳定性进行测试的优点。为了实现上述目的,本专利技术采用如下技术方案。一种检测服务器环境温度监控可靠性的方法,包括以下步骤,读取BMC芯片记录的显示温度;读取温度传感器的寄存器信息获取实际温度;将所述显示温度与实际温度进行对比;每隔一时间重复读取显示温度与实际温度,并进行对比。本专利技术的有益效果:通过对记录的温度信息对比分析,可以看出温度传感器的长期运行稳定性,同时,可以在不同的外界环境中使用脚本进行测试,模拟在不同的数据中心环境中,服务器环境温度监控的稳定性。使用带内执行脚本的方式,可以对不同外界环境下的温度监控稳定性进行便捷的测试,能够更直接的模拟数据中心的环境,提前识别出服务器潜在风险,大大降低机器的故障率,同时还可以提高客户满意度及产品的竞争力。具体实施方式下面结合实施例对本专利技术作进一步说明。检测服务器环境温度监控可靠性的方法,通过智能平台管理接口(IntelligentPlatformManagementInterface,简称IPMI)I抓取BMC芯片中记录并显示的温度。通过IPMI读取温度传感器的寄存器中的实际温度数值。将读取到的显示温度及实际温度输出至同一个文件中。每隔10秒钟循环读取温度信息。循环读取4次,输出至文件中。表1数据读取记录序号BMC芯片显示温度温度传感器寄存器记录温度信息换算实际温度131℃1f31℃231℃1f31℃330℃1f31℃431℃1f31℃表1显示了4次循环读写的结果,从这4次结果中可以看出,BMC芯片中记录的温度在31℃左右,温度传感器寄存器中记录的实际温度为十六进制的1f,换算为温度信息为31℃,因此,在误差允许的范围内,可以判断环境温度监控是稳定可靠的。上述虽然结合对本专利技术的具体实施方式进行了描述,但并非对本专利技术保护范围的限制,所属领域技术人员应该明白,在本专利技术的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本专利技术的保护范围以内。本文档来自技高网
...

【技术保护点】
1.一种检测服务器环境温度监控可靠性的方法,其特征在于,包括以下步骤,读取BMC芯片记录的显示温度;读取温度传感器的寄存器信息获取实际温度;将所述显示温度与实际温度进行对比;每隔一时间重复读取显示温度与实际温度,并进行对比。

【技术特征摘要】
1.一种检测服务器环境温度监控可靠性的方法,其特征在于,包括以下步骤,读取BMC芯片记录的显示温度;读取温度传感器的寄存器信息获取实际温度;将所述显示温度与实际温度进行对比;每隔一时间重复读取显示温度与实际温度,并进行对比。2.如权利要求1所述的检测服务器环境温度监控可靠性的方...

【专利技术属性】
技术研发人员:岳远斌孙一心
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1