一种自主式实现批量BMC自恢复的方法及系统技术方案

技术编号:20160181 阅读:25 留言:0更新日期:2019-01-19 00:12
本发明专利技术提供一种自主式实现批量BMC自恢复的方法及系统,包括如下步骤:步骤1:监控BMC的功能;若BMC功能异常步骤2,否则执行步骤1;步骤2:触发一级恢复程序进行BMC软重启;BMC软重启后,再次检测到BMC带外异常执行步骤3,否则执行步骤1;步骤3:触发二级恢复程序进行BMC冷重启动作,若BMC冷重启后检测BMC功能异常执行步骤4,否则执行步骤1;步骤4:输出报错信息。一种自动判断BMC失效并实现自恢复的方法,通过监控程序实时监控每台服务器BMC的健康状态,当程序监测到BMC异常时,通过两级自恢复动作实现BMC的自恢复,解决了BMC出现故障时无法第一时间得到处理,从而导致散热失效、故障得不到上报等问题。

【技术实现步骤摘要】
一种自主式实现批量BMC自恢复的方法及系统
本专利技术涉及服务器
,具体涉及一种自主式实现批量BMC自恢复的方法及系统。
技术介绍
随着互联网大数据和云计算的发展,客户采购服务器的数量日趋庞大,客户面对数以万计的机房,对运维工作提出了极大的挑战,几万台甚至几十万台服务器中可能有不同厂商,不同型号,客户一般会通过访问服务器的BMC来对每台服务器进行监控,BMC作为服务器平台管理的“大脑”,在客户运维环境中起着至关重要的作用。当程序监测到BMC异常时无法第一时间得到处理,从而导致散热失效、故障得不到上报等问题。
技术实现思路
为了克服上述现有技术中的不足,本专利技术提供一种自主式实现批量BMC自恢复的方法及系统,以解决上述技术问题。本专利技术的技术方案是:一种自主式实现批量BMC自恢复的方法,包括如下步骤:监控BMC的功能;若BMC功能异常,触发一级恢复程序进行BMC软重启;BMC软重启后,再次检测到BMC带外异常;触发二级恢复程序进行BMC冷重启动作。进一步的,步骤触发二级恢复程序进行BMC冷重启动作之后还包括:BMC冷重启后BMC还无响应,输出报错信息。进一步的,步骤监控BMC的功能,具体包括:对测试机进行参数配置;从配置文件中自动识别解析使每台监控设备生成的设定数量的变量参数;设置监控脚本给测试机分发任务实现BMC批量监控。进一步的,步骤对测试机进行参数配置中,参数包括:BMCIP、用户名、密码和OSIP、用户名、密码。进一步的,步骤从配置文件中自动识别解析使每台监控设备生成的设定数量的变量参数中,生成的变量参数的数量为6个,分别为被监控服务器BMC的变量$IP、被监控服务器BMC的用户名$USER、被监控服务器BMC的密码$PASSWD、、被监控服务器OS的变量$IP1、被监控服务器OS的用户名$USER1、被监控服务器OS的密码$PASSWD1。进一步的,步骤设置监控脚本给测试机分发任务实现BMC批量监控,具体实现过程:每隔设定时间间隔向被监控的服务器发送一条IPMI命令,通过判断命令的返回值来对BMC的功能异常情况进行监控。进一步的,步骤设置监控脚本给测试机分发任务实现BMC批量监控,具体实现过程:每隔5秒向被监控服务器发送一条IPMI命令;若60秒没内没有收到返回信息,则判定BMC功能异常。进一步的,步骤若BMC功能异常,触发一级恢复程序进行BMC软重启包括:一级恢复程序自动登录监控设备的操作系统执行BMC软重启动作。BMC软重启的优势仅重启BMC内部的关键模块,恢复速度较快,效率较高。进一步的,步骤触发二级恢复程序进行BMC冷重启动作,包括:二级恢复程序自动登陆被监控对象的操作系统,自动执行BMC冷重启动作。BMC冷重启的优势是会重启整个BMC模块,恢复的最为彻底。本专利技术技术方案还提供一种自主式实现批量BMC自恢复的系统,包括测试机和被测服务器;测试机与被测服务器通信连接;所述测试机包括BMC监控程序模块、一级恢复程序模块和二级恢复程序模块;BMC监控程序模块,用于监控BMC的功能是否正常;一级恢复程序模块,用于当初次检测到BMC异常时,自动登录操作系统执行BMC软重启动作;二级恢复程序模块,用于当再次检测到BMC带外异常时,自动登录操作系统执行BMC冷重启动作。从以上技术方案可以看出,本专利技术具有以下优点:一种自动判断BMC失效并实现自恢复的方法,通过监控程序实时监控每台服务器BMC的健康状态,当程序监测到BMC异常时,通过两级自恢复动作实现BMC的自恢复,解决了BMC出现故障时无法第一时间得到处理,从而导致散热失效、故障得不到上报等问题。操作简便,具有较强易用性,特别在客户复杂的大规模机房环境中尤其适用,客户可轻松监控所有设备的BMC健康情况,当遇到偶发性BMC异常时,通过两级自恢复程序自动实现BMC自恢复,极大提高了BMC模块的可靠性。此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著地进步,其实施的有益效果也是显而易见的。附图说明图1为一种自主式实现批量BMC自恢复的方法流程图。具体实施方式下面结合附图并通过具体实施例对本专利技术进行详细阐述,以下实施例是对本专利技术的解释,而本专利技术并不局限于以下实施方式。实施例一如图1所示,一种自主式实现批量BMC自恢复的方法,包括如下步骤:步骤1:监控BMC的功能;若BMC功能异常步骤2,否则执行步骤1;步骤2:触发一级恢复程序进行BMC软重启;BMC软重启后,再次检测到BMC带外异常执行步骤3,否则执行步骤1;步骤3:触发二级恢复程序进行BMC冷重启动作,若BMC冷重启后检测BMC功能异常执行步骤4,否则执行步骤1;步骤4:输出报错信息。自主式实现批量BMC自恢复的监控方案主要由两部分组成,一是需要监控的服务器范围,包含BMCIP及用户名、密码和OSIP及用户名、密码,通过一个配置文件(ip.txt)实现,格式如下:通过脚本自动识别相关的变量,通过解析,每台被监控设备可生成6个变量。一是代表被监控服务器BMC的变量$IP,二是代表被监控服务器BMC的用户名$USER,三是代表被监控服务器BMC的密码$PASSWD,四是代表被监控服务器OS的变量$IP1,二是代表被监控服务器OS的用户名$USER1,三是代表被监控服务器OS的密码$PASSWD1,这些变量均由Shell脚本自动从配置文件中读取,实现的代码如下:catip.txt|awk'{print$1}'|whilereadIPcatip.txt|awk'{print$2}'|whilereadUSERcatip.txt|awk'{print$3}'|whilereadPASSWDcatip.txt|awk'{print$4}'|whilereadIP1catip.txt|awk'{print$5}'|whilereadUSER1catip.txt|awk'{print$6}'|whilereadPASSWD1通过一个监控脚本实现批量监控,监控原理为每隔5S向被监控服务器发送一条IPMI命令,通过判断命令的返回值来判断BMC是否运行正常,实现的代码如下:一级恢复程序会在监控程序首次监控到BMC不工作时启用,其原理是先基于expect自动登陆被监控对象的操作系统,自动执行BMC软重启动作,BMC软重启的优势仅重启BMC内部的关键模块,恢复速度较快,效率较高。实现代码如下:二级恢复程序会在一级恢复程序执行后无效时启用,其原理是先基于expect自动登陆被监控对象的操作系统,自动执行BMC冷重启动作,BMC冷重启的优势是会重启整个BMC模块,恢复的最为彻底。实现代码如下:实施例二一种自主式实现批量BMC自恢复的系统,包括测试机和被测服务器;测试机与被测服务器通信连接;所述测试机包括BMC监控程序模块、一级恢复程序模块和二级恢复程序模块;BMC监控程序模块,用于监控BMC的功能是否正常;一级恢复程序模块,用于当初次检测到BMC异常时,自动登录操作系统执行BMC软重启动作;二级恢复程序模块,用于当再次检测到BMC带外异常时,自动登录操作系统执行BMC冷重启动作。由于BMC是独立于操作系统的监控管理模块,这种自恢复机制对客户业务层面来说零感知本文档来自技高网...

【技术保护点】
1.一种自主式实现批量BMC自恢复的方法,其特征在于,包括如下步骤:监控BMC的功能;若BMC功能异常,触发一级恢复程序进行BMC软重启;BMC软重启后,再次检测到BMC带外异常;触发二级恢复程序进行BMC冷重启动作。

【技术特征摘要】
1.一种自主式实现批量BMC自恢复的方法,其特征在于,包括如下步骤:监控BMC的功能;若BMC功能异常,触发一级恢复程序进行BMC软重启;BMC软重启后,再次检测到BMC带外异常;触发二级恢复程序进行BMC冷重启动作。2.根据权利要求1所述的一种自主式实现批量BMC自恢复的方法,其特征在于,步骤触发二级恢复程序进行BMC冷重启动作之后还包括:BMC冷重启后BMC还无响应,输出报错信息。3.根据权利要求1所述的一种自主式实现批量BMC自恢复的方法,其特征在于,步骤监控BMC的功能,具体包括:对测试机进行参数配置;从配置文件中自动识别解析使每台监控设备生成的设定数量的变量参数;设置监控脚本给测试机分发任务实现BMC批量监控。4.根据权利要求3所述的一种自主式实现批量BMC自恢复的方法,其特征在于,步骤对测试机进行参数配置中,参数包括:BMCIP、用户名、密码和OSIP、用户名、密码。5.根据权利要求4所述的一种自主式实现批量BMC自恢复的方法,其特征在于,步骤从配置文件中自动识别解析使每台监控设备生成的设定数量的变量参数中,生成的变量参数的数量为6个,分别为被监控服务器BMC的变量$IP、被监控服务器BMC的用户名$USER、被监控服务器BMC的密码$PASSWD、、被监控服务器OS的变量$IP1、被监控服务器OS的用户名$USER1、被监控服务器OS的密码$PASSWD1。6.根据权利要求3所述的一种自主式实现批...

【专利技术属性】
技术研发人员:伯绍文
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1