一种基于IPMI的冗余计算机系统节点故障主被动检测方法技术方案

技术编号:9751014 阅读:188 留言:0更新日期:2014-03-09 07:13
本发明专利技术公开了一种冗余计算机系统的故障主被动检测方法。该方法包括第一步:利用冗余待测计算机的IPMI标准接口,故障检测模块实时收集冗余系统中待测的主用计算机和备用计算机的状态数据,收集到一定数量的运行状态数据后;第二步:故障检测模块通过模式匹配方法诊断待测计算机是否出现运行故障;第三步:依据给定的系统参数值,预测主用计算机一段时间内出现故障事件的概率。作为实现多台计算机冗余系统容错不可或缺的基础组件之一,本发明专利技术故障主被动检测方法能够在一定程度上降低故障检测的时间延迟、提高故障检测的准确性、预测故障发生概率,以支撑关键服务系统的快速失效切换和主动容错等高可用保障机制。

【技术实现步骤摘要】
一种基于IPMI的冗余计算机系统节点故障主被动检测方法
本专利技术属于多台计算机冗余系统中的故障主被动检测方法,特别是一种基于IPMI的冗余计算机系统节点故障主被动检测方法。
技术介绍
计算机技术的迅猛发展使得计算机系统被广泛应用于国民经济的各行各业,人类社会对计算机信息系统的依赖程度越来越高,各领域对计算机信息系统的可靠性和稳定性要求也变得越来越高。不仅航空、航天、舰船这样的高技术和军事领域要求高可靠的计算机,而且银行、证券、交通、石油、化工、钢铁等金融和工业部门也要求具有高可靠的计算机。多台计算机冗余备份是一种有效解决系统可靠性的方案,该技术成本相对较低,具有安装维护简单、稳定可靠、监测直观等优点,在关键业务系统中获得了广泛的应用。多台计算机冗余容错系统中,一个模块为主用计算机,用以产生系统的输出,其余计算机作为备用。采用各种故障检测技术及故障定位技术来确定发生故障的计算机,若主用计算机发生故障,则启动重构机制,将一个正常的备用计算机转化为主用计算机,从而保障系统服务的正常。故障检测是实现多台计算机冗余系统容错不可或缺的基础组件之一,面向关键服务器的计算机故障检测技术目前在故障检本文档来自技高网...
一种基于IPMI的冗余计算机系统节点故障主被动检测方法

【技术保护点】
一种基于IPMI的冗余计算机系统节点故障主被动检测方法,其特征在于:包括以下步骤:步骤1、在所有待测计算机上部署并启用IPMI功能模块,并通过标准RJ45接口或串行接口与故障检测模块相连接;所有待测计算机构成冗余备份系统;步骤2、通过IPMI协议周期性地收集上述冗余系统中主备计算机节点的运行状态信息序列p,所述状态信息包括CPU、风扇、内存和部件状态数据;步骤3、对步骤2采集到的状态信息序列p进行分析,通过模式匹配方法分别对主备计算机节点的运行状态进行故障判定,即故障被动检测;步骤4、在给定的系统参数值的前提下,通过对主用计算机节点故障进行预测,即故障主动检测,确定在何时对上述冗余系统实施主动...

【技术特征摘要】
1.一种基于IPMI的冗余计算机系统节点故障主被动检测方法,其特征在于:包括以下步骤:步骤1、在所有待测计算机上部署并启用IPMI功能模块,并通过标准RJ45接口或串行接口与故障检测模块相连接;所有待测计算机构成冗余备份系统;所述故障检测模块是采用FPGA实现的逻辑功能模块;步骤2、通过IPMI协议周期性地收集上述冗余备份系统中主备计算机节点的运行状态信息序列p,所述状态信息包括CPU、风扇、内存和部件状态数据;步骤3、对步骤2采集到的状态信息序列p进行分析,通过模式匹配方法分别对主备计算机节点的运行状态进行故障判定,即故障被动检测;具体为:步骤3-1、对于系统预置样本库Q中的某个样本序列q和采集到的待测计算机状态序列p,q∈Q,对序列p和q进行平均线性分段,得到N个子序列,N为自然数;对于各子序列中相邻两点确定的线段,确定各线段对应的斜率值和斜率反正切值;步骤3-2、拟合各子序列中斜率反正切值相近的连续线段,得到其拟合变换后的斜率反正切值序列和其中为序列p第r个子序列的线段数目;对于某一个子序列r,r∈[1,N],其对应线段拟合变换的具体步骤为:(a)将n初始为1,即n=1;(b)确定子序列r中第n条线段与第n+1条线段的斜率反正切值之差h=H[n,r]-H[n+l,r],以判定两条线段间的斜率反正切值的相似程度,其中H[n,r]表示子序列r中第n条线段的斜率反正切值,H[n,r]∈Hp[1…tx,1…N]或H[n,r]∈Hq[1…tx,1…N];(c)对斜率反正切值之差h进行判断,若|h|>=ε,则n=n+1,转到步骤(b),直到完成遍历子序列r中所有的线段;若|h|<ε,利用一元线性回归函数,确定出序列r中第n条线段和第n+1条线段对应拟合线段的斜率值R,之后执行步骤(d);ε为判定阈值;(d)更新拟合变换后的斜率反正切值序列,以arctan(R)取代子序列r中第n条线段的斜率反正切值H[n,r],即H[n,r]=arctan(R),并将子序列r中第n+1条线段对应横坐标跨度并入第n条线段的横坐标跨度;(e)删除子序列r中第n+1条线段,转到步骤(b),直到完成遍历子序列r中所有的线段;步骤3-3、重复步骤3-1和步骤3-2,确定序列p与样本库Q中所有样本序列相匹配的子序列数;对于某个样本序列q,q∈Q,确定序列p与q相匹配的子序列数的具体步骤为:(1)设定偏离误差β>0;用E(q)表示序列p与样本序列q之间匹配的子序列数,E(q)初始为0;(2)若q为故障状态的样本序列,F(q)=1;若q为非故障状态的样本序列,F(q)=0;(3)确定序列p与样本序列q之间匹配的子序列数E(...

【专利技术属性】
技术研发人员:徐振朋翟永宁殷进勇杨光年李韦韦吴茂传苏培培楼智翔董奇史小犇
申请(专利权)人:中国船舶重工集团公司第七一六研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1