服务器系统、非临时计算机可读存储介质以及用以增强服务器系统中的存储器容错率的方法技术方案

技术编号:14158999 阅读:67 留言:0更新日期:2016-12-12 01:46
一种增强服务器系统中的存储器容错率的方法,包括:检测一服务器系统的至少一存储器装置中的至少一存储器错误;当检测到上述至少一存储器错误时,决定上述服务器系统中的一目前的存储器拓扑;当上述目前的存储器拓扑相较于一先前的存储器拓扑并无改变,与上述至少一存储器错误相关的一信息载入至一存储器遮蔽清单,上述信息包括与上述至少一存储器错误相关的上述至少一存储器装置的多个物理存储器地址;并且禁止上述至少一存储器装置中的上述物理存储器地址被上述服务器系统的软件元件或其他硬件元件所存取。

【技术实现步骤摘要】

本专利技术涉及服务器系统技术。
技术介绍
现今服务器的运算速度较之前快速。服务器系统典型地包括软硬件元件、应用程序(application program)、操作系统(operating system)、处理器、总线及存储器的组合。每个服务器依赖物理存储器(例如:动态随机存取存储器(DRAM))进行处理。除了处理器以外,存储器是服务器中最影响效能关键(performance-critical)资源的一个元件且是整个服务器硬件花费中重要的一部分。存储器模块通常和服务器中系统板上的处理器匹配。当在系统板上的处理器越来越多时,需要更多的存储器模块以容纳处理器数目增加的处理需求。然而,存储器模块数量的增加也会增加服务器上的存储器错误率。这可是代表着一个重大的花费增加。因此,有需要增强服务器系统中的存储器的容错率。
技术实现思路
本专利技术各种实施例中的系统和方法提供一种前述问题的解决方案,此解决方案借由遮蔽(mask)存储器装置中被检测到的多个不良晶片(die)所对应的物理存储器地址,用以增强服务器系统中的存储器容错率。仔细而言,本专利技术中各个不同的实施例提供多个方法,用以测试在服务器系统中的一个或多个存储器装置是否有任何存储器错误,并且记录一个或多个存储器装置中检测到的存储器错误所对应的物理存储器地址,以及禁止检测到的存储器错误所对应的物理存储器地址被操作系统、应用程序及/或服务器系统的其他元件存取。在传统的服务器系统中,当存储器装置中检测到一存储器错误或一不良晶片时,整个存储器装置必须被物理地(physically)移除并以新的存
储器装置取代,即便上述的存储器错误仅占整个物理存储器容量的万分之一。而本专利技术中各个不同实施例提供一种更快速且更有效率花费(cost-effective)的方法,用以在不需要物理替换服务器中的存储器装置的情况下增强存储器容错率。在某些实施例中,一服务器系统可包括多个节点,每个节点包括一服务器、一基本输入输出系统和一基板管理控制器。每个服务器包括至少一处理器。基板管理控制器用于管理一对应节点上的服务器系统软件与硬件元件间的一接口。在某些实施例中,当对应节点中的系统软、硬件元件的参数超出一个用以指出节点潜在错误的预设极限时,基板管理控制器可传送一警示(alert)。在某些实施例中,服务器系统中具有一存储器测试元件,用以测试是否有存储器错误发生。存储器测试元件可为一硬件、软件或其两者,且用于比较来自服务器系统中的存储器装置的数据和参考数据,且决定是否有存储器错误发生。在有些实施例中,借由写入数据至服务器中一个或多个存储器装置,从上述存储器装置中读取数据,和比较所写入的数据与从所读取的数据以决定是否有任何存储器错误发生。在某些实施例中,从一个或多个存储器装置所读取的数据可互相比较以决定是否有任何存储器错误发生。在某些实施例中,服务器系统的一个或多个存储器装置中检测到的一个或多个不良晶片时,则比较是否存储器拓扑改变。若存储器拓扑自先前的(previous)存储器拓扑决定后仍然未改变,对应于一个或多个不良晶片的物理存储器地址会被禁止存取。在某些实施例中,存储器拓扑包括一个或多个存储器装置和至少一存储器控制器间的连接信息。在某些实施例中,对应于存储器错误的物理存储器地址所对应的一预定范围的物理存储器地址也可被添加至一服务器系统中的存储器遮蔽清单且被操作系统、应用程序及/或服务器系统的其他元件所禁止存取。某些实施例可将所检测到的不良晶片的多个邻近晶片的物理存储器地址纪录至存储器遮蔽清单中且向操作系统标示出上述物理存储器地址为“不可使用的”。在某些实施例中,当于存储器遮蔽清单中的物理存储器地址被禁止存取时,对应于这些物理存储器地址的页面可借由多种使用错误更正码(error correction scheme)恢复。在某些实施例中,一个或多个存储器装置的多个部分可被动态保留为一保留存储器,以镜像复制(mirror)一个或多个存储器装
置所存储的数据。当存储器遮蔽清单中的物理存储器地址被禁止存取时,这些物理存储器地址所对应的页面亦可从一个或多个存储器装置的所保留的部分中复制。在某些实施例中,当一基本输入输出系统、一开机自我测试程序(power-on self-test,POST)、一操作系统或一存储器自我测试执行时,检测服务器系统中是否有存储器错误的程序可被启动。下文为介绍本专利技术的最佳实施例。各实施例用以说明本专利技术的原理,但非用以限制本专利技术。本专利技术的范围当以所附权利要求为准。附图说明图1为根据本专利技术实施例在通信网络下所绘机架式服务器的示意图。图2为一种根据本专利技术实施例的增强计算系统中的存储器容错率的方法的示意图。图3为一种根据本专利技术实施例的进行自我测试以增强服务器上存储器容错率的方法的示意图。图4为适用于本实施例技术的一计算装置的示意图。图5A、5B为根据本专利技术实施例的计算系统的示意图。符号说明100~机架式服务器;101、102~节点;1011、1021~服务器;1013、1023、463、510、555~处理器;1014、1024、461、515~存储器装置;1015、1025~基本输入输出系统;1112、1122~基板管理控制器;105~微控制器;200、300~方法;210、220、221、230、240、250、260、310、320、330、340、350~步骤;400~计算装置;415、505~总线;462~中央处理单元;468~接口;500~计算系统;512~快取存储器;520~只读存储器;525、575~随机存取存储器;530、570~存储装置;532、534、536~模块;535、565~输出装置;540、590~通信接口;545~输入装置;550~计算机系统;560~晶片;580~电桥;585~用户界面元件。具体实施方式图1为根据本专利技术实施例所绘的在通信网络下机架式服务器(server rack)100的示意图。在此实施例中,机架式服务器100包括多个节点(node)(例如:节点101与节点102)和一微控制器105。多个节点可彼此独立操作。在某些实施例中,多个节点可有相似的计算能力(computing capacity)和相似的存储器容量。在其他实施例中,多个节点可有各个不同的大小、计算能力及存储器容量。每个节点可包括一服务器(例如:服务器1011和服务器1021)、基本输入输出系统(BIOS)(例如:基本输入输出系统1015和1025)和一基板管理控制器(BMC)(例如:基板管理控制器1112和1122)。每个服务器包括至少一处理器和一存储器装置。在此实施例中,服务器1011包括一处理器1013和一存储器装置1014,服务器1021包括一处理器1023和一存储器装置1024。在本专利技术的各个实施例中,基板管理控制器为嵌入在每个节点中的专用微控制器(例如:分别嵌入于节点101与节点102中的基板管理控制器1112和1122)。基板管理控制器可用以管理每个节点中介于系统管理软件与硬件
元件间的接口。在某些实施例中,建造于每个节点中的不同类型的传感器可回报多种参数(例如:温度、冷却风扇速度、功率状态及/或操作系统状态)给一对应的基板管理控制器。基本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201510223627.html" title="服务器系统、非临时计算机可读存储介质以及用以增强服务器系统中的存储器容错率的方法原文来自X技术">服务器系统、非临时计算机可读存储介质以及用以增强服务器系统中的存储器容错率的方法</a>

【技术保护点】
一种服务器系统,包括:至少一处理器;以及一存储器装置,包括多个指令,当上述指令被上述至少一处理器所执行时,使得上述服务器系统进行下列步骤:检测在上述服务器系统的至少一存储器装置中的至少一存储器错误;当检测到上述至少一存储器错误时,决定上述服务器系统中的一目前的存储器拓扑;当上述目前的存储器拓扑相较于一先前的存储器拓扑并无改变时,将与上述至少一存储器错误相关的一信息载入至一存储器遮蔽清单,上述信息包括与上述至少一存储器错误相关的多个物理存储器地址;以及禁止上述至少一存储器装置中的上述物理存储器地址被上述服务器系统的软件元件或其他硬件元件所存取。

【技术特征摘要】
2014.11.14 US 14/542,3551.一种服务器系统,包括:至少一处理器;以及一存储器装置,包括多个指令,当上述指令被上述至少一处理器所执行时,使得上述服务器系统进行下列步骤:检测在上述服务器系统的至少一存储器装置中的至少一存储器错误;当检测到上述至少一存储器错误时,决定上述服务器系统中的一目前的存储器拓扑;当上述目前的存储器拓扑相较于一先前的存储器拓扑并无改变时,将与上述至少一存储器错误相关的一信息载入至一存储器遮蔽清单,上述信息包括与上述至少一存储器错误相关的多个物理存储器地址;以及禁止上述至少一存储器装置中的上述物理存储器地址被上述服务器系统的软件元件或其他硬件元件所存取。2.如权利要求1所述的服务器系统,其中上述服务器系统包括一个或多个节点,上述一个或多个节点中的每个节点包括一基板管理控制器、一基本输入输出系统和一服务器,上述服务器至少包括一处理器,上述基板管理控制器用于管理一对应节点上的服务器系统软件与多个硬件元件间的一接口,且当上述指令被执行时,还使得上述服务器系统进行下列步骤:当上述服务器系统中的一节点的上述软件元件与硬件元件的至少一参数超出与上述节点的一潜在性错误所相关的一预设极限时,借由上述基板管理控制器通过一网络传送一警示至上述服务器系统中的一微控制器或一系统管理员。3.如权利要求1所述的服务器系统,其中上述服务器系统包括一存储器测试元件,上述存储器测试元件用以比较来自至少一存储器装置中的数据与一参考数据,且至少根据一比较结果,决定在上述至少一存储器装置中是否发生上述存储器错误。4.如权利要求3所述的服务器系统,其中当上述指令被执行时,还使得上述服务器系统进行下列步骤:写入一数据至上述至少一存储器装置;从上述至少一存储器装置读取上述数据;比较所写入的上述数据与从上述至少一存储器装置中所读取的数据;以及当上述所读取的数据中的至少一者不同于所写入的上述数据时,指出上述存储器错误已发生。5.如权利要求3所述的服务器系统,其中当上述指令被执行时,还使得上述服务器系统进行下列步骤:写入一数据至上述至少一存储器装置;从上述至少一存储器装置读取上述数据;比较从上述至少一存储器装置中所读取的数据;以及当从上述至少一存储器装置之一者所读取的数据不同于从上述至少一存储器装置的另一者所读取的数据时,指出上述存储器错误已发生。6.如权利要求1所述的服务器系统,其中上述目前的存储器拓扑包括上述服务器中至少一存储器控制器和上述至少一存储器装置之间的连接信息。7.如权利要求1所述的服务器系统,其中当上述指令被执行时,还使得上述服务器系统进行下列步骤:于上述存储器遮蔽清单中,增加一预定范围的物理存储器地址,上述预定范围的物理存储器地址相邻于上述存储器错误所对应的上述物理存储器地址;以及禁止上述至少一存储器装置中的上述预定范围的物理存储器地址被上述服务器系统的上述软件元件与上述硬件元件所存取。8.如权利要求1所述的服务器系统,其中当上述指令被执行时,还使得上述服务器系统进行下列步骤:于上述存储器遮蔽清单中,增加上述存储器错误所对应的一个或多个晶片的多个物理存储器地址和上述一个或多个晶片的至少一邻近晶片的多个物理存储器地址;以及禁止对应于上述存储器错误的上述一个或多个晶片的物理存储器地址和上述至少一邻近晶片的物理存储器地址被上述服务器系统的上述软件元件与上述硬件元件所存取。9.如权利要求1所述的服务器系统,其中当上述指令被执行时,还使得上述服务器系统进行下列步骤:动态保留上述至少一存储器装置的至少一部分做为一保留存储器,用以
\t复制上述至少一存储器装置所存储的数据;以及当对应于上述存储器错误的上述物理存储器地址被禁止存取时,从上述保留存储器中取回对应于上述物理存储器地址的数据。10.如权利要求1所述的服务器系统,其中上述服务器系统还包括一个或多个节点,上述一个或多个节点中的每个节点包含一基本输入输出系统,用以初始化或至少部分地测试上述至少一存...

【专利技术属性】
技术研发人员:苏美琳王玮群钱威宇
申请(专利权)人:广达电脑股份有限公司
类型:发明
国别省市:中国台湾;71

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1