This invention relates to a server fault detection system and method of onboard BMC based on the detection system comprises a detection module and fault detection method comprises: collecting module, server, operating system, BMC card and power log; through the IPMI command to the server hardware state monitoring, monitoring data acquisition; according to the monitoring data of log and analysis of server failure results; storage and / or output results. Method and system for this application can be more accurate positioning of the cause of the fault, improve the accuracy of fault detection, but also by the preset program and parts of fault handling, without having to rely on the professional skills of maintenance personnel, in improving the reliability of fault detection based on fault detection is beneficial to improve efficiency, easy to popularize.
【技术实现步骤摘要】
一种基于板载BMC的服务器故障检测系统和方法
本申请涉及服务器故障检测
,尤其涉及一种基于板载BMC的服务器故障检测系统和方法。
技术介绍
随着计算机技术的发展,服务器的应用领域越来越广泛,且目前的服务器节点数量庞大,相应地,服务器出现故障的概率越来越大、故障类别也越来越多。因此,对服务器的故障进行检测逐渐引起行业内的重视。传统的服务器故障检测没有专门的装置,主要通过BMC进行相关数据采集来检测。具体地,在集群服务中,当某个服务器出现故障时,例如:某一节点服务器的某个部件坏掉导致无法进入操作系统,为了找到出现故障的部件,通常维护人员首先根据故障类型推测故障原因,然后根据所推测的故障原因通过BMC进行相关数据的采集,最后根据采集到的数据验证故障原因以及故障部件的位置是否正确。如果推测不正确,继续通过BMC采集相关数据、排查其他原因,直到确定服务器故障部件和位置为止。然而,目前的服务器故障检测有专门的检测装置,仅通过BMC进行数据采集,目前的检测方法在判断服务器故障时操作比较繁琐,而且根据故障类型推测故障原因需要维护人员具有较高的专业技能,导致目前的服务器故障检 ...
【技术保护点】
一种基于板载BMC的服务器故障检测系统,其特征是,所述系统包括:驱动模块(1),用于集成服务器的硬件驱动;故障检测模块(2),用于对服务器故障进行检测和分析。
【技术特征摘要】
1.一种基于板载BMC的服务器故障检测系统,其特征是,所述系统包括:驱动模块(1),用于集成服务器的硬件驱动;故障检测模块(2),用于对服务器故障进行检测和分析。2.如权利要求1所述的一种基于板载BMC的服务器故障检测系统,其特征是,所述故障检测模块(2)包括:log收集单元(21),用于收集服务器上BMC、操作系统、网卡以及电源的log;状态监测单元(22),用于通过IPMI命令对服务器中硬件的状态进行监测,获取监测数据;分析单元(23),用于根据所述log和监测数据对服务器故障进行分析;输出单元(24),用于存储和/或输出所述分析单元的分析结果。3.如权利要求1所述的一种基于板载BMC的服务器故障检测系统,其特征是,所述驱动模块(1)和所述故障检测模块(2)均为可定制模块。4.如权利要求1-3中任意一项所述的一种基于板载BMC的服务器故障检测系统,其特征是,所述系统与BMC固件一起烧录至BMC芯片。5.如权利要求1-3中任意一项所述的...
【专利技术属性】
技术研发人员:刘东伟,
申请(专利权)人:郑州云海信息技术有限公司,
类型:发明
国别省市:河南,41
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。