一种采用冗余PCH的服务器故障恢复系统及方法技术方案

技术编号:15639051 阅读:450 留言:0更新日期:2017-06-15 21:04
本发明专利技术提供一种采用冗余PCH的服务器故障恢复系统及方法,系统包括管理控制器BMC,BIOS芯片,南桥芯片PCH,若干CPU板,每个CPU板包括若干CPU,全部CPU板所含的CPU中只有一个主CPU,其余为从CPU;南桥芯片PCH包括一个工作南桥芯片PCH,以及冗余南桥芯片PCH,冗余南桥芯片PCH的数量至少为1个,至多为从CPU的个数;工作南桥芯片PCH与主CPU通过DIM总线连接,冗余南桥芯片PCH与从CPU通过DMI总线连接;南桥芯片PCH与BIOS芯片连接;管理控制器BMC与CPU板连接,管理控制器BMC与南桥芯片PCH连接,各CPU之间通过总线连接。

【技术实现步骤摘要】
一种采用冗余PCH的服务器故障恢复系统及方法
本专利技术属于服务器故障恢复领域,具体涉及一种采用冗余PCH的服务器故障恢复系统及方法。
技术介绍
在八路服务器设计中,通常采用一个南桥芯片(PCH,platformcontrollerhub)通过DMI总线与一个CPU相连接,该CPU称为主CPU,负责与PCH的数据交互。在系统开机启动时,PCH从BIOS中获取系统的设置信息、设备驱动程序和自检程序等,并通过与主CPU之间的DMI总线来完成对所有CPU和内存的自检。自检完成后,BIOS会开始引导操作系统,完成开机。在这种设计中,系统可以屏蔽掉故障的从CPU,但是如果主CPU出现故障,与PCH之间的DMI总线便无法工作,BIOS程序无法加载,系统无法屏蔽主CPU,必须通过人工更换主CPU的方式完成故障恢复,增加了服务器的宕机时间,这将对产品的可靠性产生不良影响。此为现有技术不足之处。因此,针对现有技术中的上述缺陷,提供设计一种采用冗余PCH的服务器故障恢复系统及方法,是非常有必要的。
技术实现思路
本专利技术的目的在于,针对上述主CPU出现故障时,系统无法恢复功能的缺陷,提供一种采用冗余PCH的服务器故障恢复系统及方法,以解决上述技术问题。为实现上述目的,本专利技术给出以下技术方案:一种采用冗余PCH的服务器故障恢复系统,包括管理控制器,BIOS芯片,南桥芯片PCH,若干CPU板,每个CPU板包括若干CPU,全部CPU板所含的CPU中只有一个主CPU,其余为从CPU;南桥芯片PCH包括一个工作南桥芯片PCH,以及冗余南桥芯片PCH,冗余南桥芯片PCH的数量至少为1个,至多为从CPU的个数;工作南桥芯片PCH与主CPU通过DIM总线连接,冗余南桥芯片PCH与从CPU通过DMI总线连接;南桥芯片PCH与BIOS芯片连接;管理控制器BMC与CPU板连接,管理控制器BMC与南桥芯片PCH连接,各CPU之间通过总线连接;各CPU之间的连接方式有多种,可以为环状连接,也可以为两两连接,即各CPU之间实现直接连接或者间接连接都可以;BIOS芯片,用于存放系统的设置信息、设备驱动和自检程序;CPU板用于放置CPU,并接收屏蔽CPU的信号;工作南桥芯片PCH用于获取BIOS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;用于转发主CPU发出的CPU故障信息;管理控制器BMC,用于接收工作南桥芯片PCH转发的CPU故障信息,用于屏蔽故障从CPU,用于配置主CPU,用于配置工作南桥芯片PCH。进一步地,所述CPU板为四个,每个CPU板上有两个CPU,服务器为八路服务器。进一步地,所述南桥芯片PCH设置在独立的PCH板卡上,CPU板上设置有连接PCH板卡的连接器。进一步地,各CPU之间通过QPI总线连接。进一步地,各CPU之间通过UPI总线连接。进一步地,每个CPU板上设置有一个BIOS芯片,与南桥芯片PCH连接的CPU所在的CPU板上的BIOS芯片同对应的南桥芯片PCH连接。本专利技术还给出以下技术方案:一种采用冗余PCH的服务器故障恢复方法,包括如下步骤:步骤1.设置主CPU,设置与主CPU连接的南桥芯片默认为工作南桥芯片PCH;步骤2.服务器尝试开机;步骤3.工作南桥芯片PCH获取BIOS芯片中存放的系统的设置信息、设备驱动和自检程序传递给主CPU;步骤4.若主CPU不发生故障,主CPU加载自检程序,进行自检,若从CPU没有故障,进入步骤7,若从CPU发生故障,进入步骤6;若主CPU发生故障,自检程序无法加载,进入步骤5;步骤5.工作南桥芯片PCH向管理控制器BMC报告;管理控制器BMC将故障主CPU配置为从CPU,将另外一个从CPU配置为主CPU;管理控制器BMC关闭工作南桥芯片PCH的功能,开启另一个与新的主CPU连接的冗余南桥芯片PCH的功能;回到步骤2;步骤6.工作南桥芯片PCH向管理控制器BMC报告;管理控制器BMC向CPU板发送CPU配置信号屏蔽掉故障的从CPU;步骤7.自检完成后,主CPU通过从BIOS获取的程序引导操作系统,完成开机。进一步地,在步骤1之前增加如下步骤:步骤1ˊ.判断是否有故障恢复需求;步骤2ˊ.若有故障恢复需求,进入步骤1;步骤3ˊ.若没有故障恢复需求,则只保留工作南桥芯片PCH与主CPU的连接,断开冗余南桥芯片PCH与从CPU的连接,主CPU加载自检程序,进行自检,若从CPU发生故障进入步骤6;若从CPU没有故障,进入步骤7。本专利技术的有益效果在于:本专利可应用到八路服务器产品中,本专利可以保证服务器在任意一个CPU出现故障时都能够正常开机,增强系统的可靠性,应用时,可以根据是否有故障恢复的需求决定是连接1个PCH板卡还是多个PCH板卡,提高设计的灵活性。此外,本专利技术设计原理可靠,结构简单,具有非常广泛的应用前景。由此可见,本专利技术与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。附图说明图1为本专利技术的系统图;图2为本专利技术的方法流程图;其中,1.管理控制器BMC;2.BIOS芯片;3.第一南桥芯片PCH;4.第二南桥芯片PCH;5.第一CPU板;6.第二CPU板;7.第三CPU板;8.第四CPU板;9.第一CPU;10.第二CPU;11.第三CPU;12.第四CPU;13.第五CPU;14.第六CPU;15.第七CPU;16.第八CPU。具体实施方式:为使得本专利技术的目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术具体实施例中的附图,对本专利技术中的技术方案进行清楚、完整地描述。实施例1如图1所示,本专利技术提供一种采用冗余PCH的服务器故障恢复系统,包括管理控制器BMC1,BIOS芯片2,南桥芯片PCH,第一CPU板5,第二CPU板6,第三CPU板7,第四CPU板8,第一CPU板5上有第一CPU9和第二CPU10,第二CPU板6上有第三CPU11和第四CPU12,第三CPU板7上有第五CPU13和第六CPU14,第四CPU板8上有第七CPU15和第八CPU16,第一CPU9为主CPU,其余为从CPU;南桥芯片PCH包括第一南桥芯片PCH3和第二南桥芯片PCH4,第一南桥芯片PCH3为工作南桥芯片PCH,第二南桥芯片PCH4为冗余南桥芯片PCH;第一南桥芯片PCH3和第二南桥芯片PCH4在独立的PCH板卡上,第一CPU板5和第四CPU板8上设置有连接PCH板卡的连接器;第一南桥芯片PCH3与第一CPU9通过DIM总线连接,第二南桥芯片PCH4与第七CPU15通过DMI总线连接;南桥芯片PCH与BIOS芯片2连接;每个CPU板上设置有一个BIOS芯片2,第一南桥芯片PCH3与第一CPU板5上的BIOS芯片2连接,第二南桥芯片PCH4与第四CPU板8上的BIOS芯片2连接;管理控制器BMC1与第一CPU板5、第二CPU板6、第三CPU板7、第四CPU板8连接,管理控制器BMC1与第一南桥芯片PCH3、第二南桥芯片PCH4连接各CPU之间通过总线连接;第一CPU9、第二CPU10、第三CPU11、第四CPU12、第五CPU13、第六CPU14、第七CPU15、第八CPU16之间通过UPI总线连接;实施例2如图2所示,一种采用冗余PCH的服务器故障恢复方法,包括如下本文档来自技高网...
一种采用冗余PCH的服务器故障恢复系统及方法

【技术保护点】
一种采用冗余PCH的服务器故障恢复系统,其特征在于,包括管理控制器BMC,BIOS芯片, 南桥芯片PCH,若干CPU板,每个CPU板包括若干CPU,全部CPU板所含的CPU中只有一个主CPU,其余为从CPU;南桥芯片PCH包括一个工作南桥芯片PCH,以及冗余南桥芯片PCH,冗余南桥芯片PCH的数量至少为1个,至多为从CPU的个数;工作南桥芯片PCH与主CPU通过DIM总线连接,冗余南桥芯片PCH与从CPU通过DMI总线连接;南桥芯片PCH与BIOS芯片连接;管理控制器BMC与CPU板连接,管理控制器BMC与南桥芯片PCH连接,各CPU之间通过总线连接。

【技术特征摘要】
1.一种采用冗余PCH的服务器故障恢复系统,其特征在于,包括管理控制器BMC,BIOS芯片,南桥芯片PCH,若干CPU板,每个CPU板包括若干CPU,全部CPU板所含的CPU中只有一个主CPU,其余为从CPU;南桥芯片PCH包括一个工作南桥芯片PCH,以及冗余南桥芯片PCH,冗余南桥芯片PCH的数量至少为1个,至多为从CPU的个数;工作南桥芯片PCH与主CPU通过DIM总线连接,冗余南桥芯片PCH与从CPU通过DMI总线连接;南桥芯片PCH与BIOS芯片连接;管理控制器BMC与CPU板连接,管理控制器BMC与南桥芯片PCH连接,各CPU之间通过总线连接。2.如权利要求1所述的一种采用冗余PCH的服务器故障恢复系统,其特征在于,所述CPU板为四个,每个CPU板上有两个CPU,服务器为八路服务器。3.如权利要求1所述的一种采用冗余PCH的服务器故障恢复系统,其特征在于,所述南桥芯片PCH设置在独立的PCH板卡上,CPU板上设置有连接PCH板卡的连接器。4.如权利要求1所述的一种采用冗余PCH的服务器故障恢复系统,其特征在于,各CPU之间通过UPI总线连接。5.如权利要求1所述的一种采用冗余PCH的服务器故障恢复系统,其特征在于,各CPU之间通过QPI总线连接。6.如权利要求1所述的一种采用冗余PCH的服务器故障恢复系统,其特征在于,每个CPU板上设置有一个BIOS芯片,与同一南桥芯片PCH连接的CPU和BIOS芯片在同一个CPU板上。7.一种...

【专利技术属性】
技术研发人员:程万前
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1