一种基板管理控制器的故障自动恢复方法及系统技术方案

技术编号:17970273 阅读:60 留言:0更新日期:2018-05-16 11:13
本发明专利技术提供一种基板管理控制器的故障自动恢复方法及系统,所述方法包括:由所述基板管理控制器执行初始化进程;由所述复杂可编程逻辑器接收启动信号;将基板管理控制器的心跳信号发送至复杂可编程逻辑器,并将所述心跳信号作为所述复杂可编程逻辑器的监测信号;由所述复杂可编程逻辑器检测所述心跳信号是否输出预设频率;当所述心跳信号输出预设频率时,则继续由所述复杂可编程逻辑器检测所述心跳信号是否输出预设频率;当所述心跳信号不是输出预设频率时,则由所述复杂可编程逻辑器向所述基板管理控制器发送重启信号,以使所述基板管理控制器重启并完成故障恢复。本发明专利技术能够提升服务器的维护效率以及所述管理控制器管理的稳定性。

【技术实现步骤摘要】
一种基板管理控制器的故障自动恢复方法及系统
本专利技术涉及计算机
,尤其涉及一种基板管理控制器的故障自动恢复方法及系统。
技术介绍
随着互联网、云计算以及大数据等技术的兴起,服务器已经成为战略性基础设施。服务器需求量快速增长的大环境下,服务器可管理性、可维护性、稳定性等都越来越重要。其中,服务器部署和管理使用基板管理控制器(BMC:BaseboardManagementController)作为带外管理系统主控的方案占了绝对多数,这也给BMC带外系统稳定性提出了更高的要求。BMC带外管理系统作为一套独立的系统,与服务器系统一样也会出现低概率当机等情况,出现当机等情况后如果没有一种故障自动恢复方法,就将影响整个服务器的管理及运维,影响服务器系统的稳定以及造成客户维护不便。当前的服务器系统,关于BMC故障恢复方法可通过在服务器产品服务器BMC设计软件watchdog模式恢复BMC故障,在BMC功能模块异常的情况下通过软件watchdog重启BMC,达到故障恢复的目的。但是上述软件故障模式需要依赖BMC内部时钟,如果BMC时钟出现问题,软件watchdog将无法生效;或者,在服务器中设计BMC重启按钮,在BMC服务出现故障,可以通过按重启按钮重启BMC。但是由于服务器与台式机或者笔记本不同,服务器都放置在机房中,要使用按钮重启BMC就需要进机房进行操作,对于运维来说,所述故障恢复方案非常低效;再或者部分整机柜服务器使用机架管理控制(RMC:RackManagementControl)模块对BMC进行故障恢复,但是,由于RMC模块其实也是一套BMC管理方案,其核心部件也是BMC芯片,区别只是在于BMC只管理本计算结点(一台服务器),而RMC模块与所有结点的BMC进行通信,管理整个机架内所有结点(多台服务器),既然RMC都存在故障风险,同样RMC也一样会存在故障风险,RMC如果和BMC同时出现故障,那么BMC故障恢复将不能实现的问题。
技术实现思路
本专利技术提供的基板管理控制器的故障自动恢复方法及系统,能够提升服务器的维护效率以及所述管理控制器管理的稳定性。第一方面,本专利技术提供一种基板管理控制器的故障自动恢复方法,包括:由所述基板管理控制器执行初始化进程;由所述复杂可编程逻辑器接收启动信号;将基板管理控制器的心跳信号发送至复杂可编程逻辑器,并将所述心跳信号作为所述复杂可编程逻辑器的监测信号;由所述复杂可编程逻辑器检测所述心跳信号是否输出预设频率;当所述复杂可编程逻辑器检测所述心跳信号输出预设频率时,则继续由所述复杂可编程逻辑器检测所述心跳信号是否输出预设频率;当所述复杂可编程逻辑器检测所述心跳信号不是输出预设频率时,则由所述复杂可编程逻辑器向所述基板管理控制器发送重启信号,以使所述基板管理控制器重启并完成故障恢复。可选地,所述由所述复杂可编程逻辑器接收启动信号包括:由平台控制单元经通用输入/输出接口向所述复杂可编程逻辑器发送启动信号;根据所述启动信号控制所述复杂可编程逻辑器开启或关闭基板管理控制器的故障自动恢复功能。可选地,在所述由所述基板管理控制器执行初始化进程之后,所述方法还包括:判断所述初始化进程是否执行成功,如果所述初始化进程执行成功,则向所述复杂可编程逻辑器发送初始化成功信号,并执行下一步;如果所述初始化进程未执行成功,则向所述复杂可编程逻辑器发送初始化失败信号,并由所述复杂可编程逻辑器关闭基板管理控制器的故障自动恢复功能。可选地,在所述向所述复杂可编程逻辑器发送初始化成功信号之后,所述方法还包括:由所述复杂可编程逻辑器检测在设定时间内所述心跳信号是否有输出预设频率;如果在设定时间内所述心跳信号有输出预设频率,则继续由所述复杂可编程逻辑器检测所述心跳信号是否输出预设频率;如果在设定时间内所述心跳信号持续不是输出预设频率,则由所述复杂可编程逻辑器向所述基板管理控制器发送重启信号,以使所述基板管理控制器重启并完成故障恢复。第二方面,本专利技术提供一种基板管理控制器的故障自动恢复系统,包括:基板管理控制器,用于执行初始化进程以及将心跳信号发送至复杂可编程逻辑器,并将所述心跳信号作为所述复杂可编程逻辑器的监测信号;复杂可编程逻辑器,用于接收启动信号以及检测所述心跳信号是否输出预设频率;当所述心跳信号输出预设频率时,则继续检测所述心跳信号是否输出预设频率;当所述心跳信号不是输出预设频率时,则向所述基板管理控制器发送重启信号,以使所述基板管理控制器重启并完成故障恢复。可选地,所述系统还包括:平台控制单元,用于经通用输入/输出接口向所述复杂可编程逻辑器发送开启信号,并根据所述信号控制所述复杂可编程逻辑器开启或关闭基板管理控制器的故障自动恢复功能。可选地,所述复杂可编程逻辑器包括:信号接收模块,用于接收所述基板管理控制器所发送的心跳信号;信号检测模块,用于检测所述心跳信号是否输出预设频率;信号发送模块,用于向所述基板管理控制器发送重启信号。本专利技术实施例提供的基板管理控制器的故障自动恢复方法及系统,利用复杂可编程逻辑器(CPLD:ComplexProgrammableLogicDevice)控制所述基板管理控制器进行故障自动恢复,其中,主要是通过将所述基板管理控制器的心跳信号作为所述复杂可编程逻辑器的监测信号,例如,所述监测信号为所述复杂可编程逻辑器的watchdog信号;并由所述复杂可编程逻辑器对所述心跳信号进行实时检测,并根据所述心跳信号控制所述基板管理控制器的故障自动恢复功能。其中,所述方法主要是通过所述复杂可编程逻辑器检测所述心跳信号的输出频率,并将所述心跳信号的输出频率与输出预设频率进行对比,根据对比结果控制是否由所述复杂可编程逻辑器向所述基板管理控制器发送重启信号,以使所述基板管理控制器重启并完成故障恢复。同时,本实施例中所述方法还可通过所述基板管理控制器也可侦测自身各模块状态是否异常,比如侦测到网络一直处于动态主机配置协议(DHCP:DynamicHostConfigurationProtocol)状态,而无法获得IP地址,就可以控制心跳信号不再输出预设频率,进而使得所述复杂可编程逻辑器在短时间内完成对基板管理控制器及周边模块的重启完成故障的自动恢复。因此,本实施例所述方法通过使用所述复杂可编程逻辑器实现基板管理控制器的故障自动恢复功能,所述方法不仅提升了服务器的维护效率;同时,还提升了所述服基板管理控制器管理稳定性。附图说明图1为本专利技术一实施例基板管理控制器的故障自动恢复方法的流程图;图2为本专利技术另一实施例基板管理控制器的故障自动恢复方法的流程图;图3为本专利技术一实施例基板管理控制器的故障自动恢复系统的结构示意图;图4为本专利技术另一实施例基板管理控制器的故障自动恢复系统的结构示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种基板管理控制器的故障自动恢复方法,如图1所示,所述方法包括:S01、由所述基板管理控制本文档来自技高网
...
一种基板管理控制器的故障自动恢复方法及系统

【技术保护点】
一种基板管理控制器的故障自动恢复方法,其特征在于,包括:由所述基板管理控制器执行初始化进程;由所述复杂可编程逻辑器接收启动信号;将基板管理控制器的心跳信号发送至复杂可编程逻辑器,并将所述心跳信号作为所述复杂可编程逻辑器的监测信号;由所述复杂可编程逻辑器检测所述心跳信号是否输出预设频率;当所述复杂可编程逻辑器检测所述心跳信号输出预设频率时,则继续由所述复杂可编程逻辑器检测所述心跳信号是否输出预设频率;当所述复杂可编程逻辑器检测所述心跳信号不是输出预设频率时,则由所述复杂可编程逻辑器向所述基板管理控制器发送重启信号,以使所述基板管理控制器重启并完成故障恢复。

【技术特征摘要】
1.一种基板管理控制器的故障自动恢复方法,其特征在于,包括:由所述基板管理控制器执行初始化进程;由所述复杂可编程逻辑器接收启动信号;将基板管理控制器的心跳信号发送至复杂可编程逻辑器,并将所述心跳信号作为所述复杂可编程逻辑器的监测信号;由所述复杂可编程逻辑器检测所述心跳信号是否输出预设频率;当所述复杂可编程逻辑器检测所述心跳信号输出预设频率时,则继续由所述复杂可编程逻辑器检测所述心跳信号是否输出预设频率;当所述复杂可编程逻辑器检测所述心跳信号不是输出预设频率时,则由所述复杂可编程逻辑器向所述基板管理控制器发送重启信号,以使所述基板管理控制器重启并完成故障恢复。2.根据权利要求1所述的方法,其特征在于,所述由所述复杂可编程逻辑器接收启动信号包括:由平台控制单元经通用输入/输出接口向所述复杂可编程逻辑器发送启动信号;根据所述启动信号控制所述复杂可编程逻辑器开启或关闭基板管理控制器的故障自动恢复功能。3.根据权利要求1或2所述的方法,其特征在于,在所述由所述基板管理控制器执行初始化进程之后,所述方法包括:判断所述初始化进程是否执行成功,如果所述初始化进程执行成功,则向所述复杂可编程逻辑器发送初始化成功信号,并执行下一步;如果所述初始化进程未执行成功,则向所述复杂可编程逻辑器发送初始化失败信号,并由所述复杂可编程逻辑器关闭基板管理控制器的故障自动恢复功能。4.根据权利要求3所述的方法,其特征在于,在所述向所述复杂可编程逻辑器发送初始...

【专利技术属性】
技术研发人员:胡远明赵熠琳
申请(专利权)人:曙光信息产业北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1