用于识别局部损坏存储器的自测试方法和装置制造方法及图纸

技术编号:2852437 阅读:182 留言:0更新日期:2012-04-11 18:40
提供了一种计算机系统,其包括具有高速缓冲存储器的处理器。该高速缓冲存储器包括多个可独立配置的子部分,每个子部分包括存储器阵列。计算系统的服务单元(SE)可被操作用于使内装自测试(BIST)被执行以便测试该高速缓冲存储器,BIST可被操作用于确定任意子部分是否为损坏的。当确定了由BIST确定损坏的高速缓冲存储器的一个子部分是不可修复的时候,该SE从系统配置中逻辑地删除该损坏子部分,并且该SE可被操作用于允许处理器在不具有所述被逻辑删除子部分的情况下运行。该SE还可被操作用于当损坏子部分的数量超过阈值时确定处理器是损坏的。

【技术实现步骤摘要】

本专利技术涉及计算系统,并更特别地涉及识别和逻辑删除计算系统的高速缓存的损坏子部分的装置和方法。
技术介绍
对于许多计算机特别是服务器计算机而言,现在日益增长的依赖计算机的交易已经使保持一天二十四小时的持续运行成为必需。然而,不可避免地,在计算机内部会出现中断该计算机提供的服务的损坏。目前,服务中断或者甚至是计算机提供的服务速度减慢都将导致交易中断,它潜在地使交易所有者付出远远超过修复计算机的成本的代价。或许比起计算机的其他单元来,存储器单元在使用过程中更容易出现损坏。对于某些损坏而言,如果该损坏致使系统无法运行,并需要在系统能够重新运行之前替换存储器单元,那么其对交易的影响会很严重。工业上解决此问题的一种方式是争取更可靠的存储器设计和产品。然而,随着存储器单元的集成密度和规模的增加,不可避免地将存在某些损坏,其需要替换存储器单元以便进行修复。而仍然需要解决用于修复这类损坏的系统停机时间。关于处理器所使用的高速缓冲存储器的这些问题会被特别强烈地感受到。高速缓冲存储器用于提供对于频繁引用和操作的数据及指令的快速访问。一级(L1)高速缓冲存储器(下文中称为“高速缓冲存储器”)典型地被集成在计算系统的处理器单元中。处理器需要具有某个最小数量的存储单元的高速缓冲存储器,以便达到最好的处理性能。当高速缓冲存储器由于一种或另一种原因而出现损坏时,传统的方法允许例如字线和列的高速缓冲存储器的单独存储单元被内部删除和/或用冗余单元替换,以便允许处理器在检测到永久性损坏后能重新运行。近年来,改进的测试和内部自修复机制已允许计算机系统自己执行这种类型的修复操作。然而,自修复通常无法用于替换高速缓冲存储器的很大部分。此外,自修复无法修理一种情况,即,高速缓冲存储器的通常可修复的部分出现故障,但由于所有可用的修复操作都已经被使用而不能被修复。当高速缓冲存储器的一部分出现无法由内部机制修复的损坏时,传统的响应是,在给计算机加电的自测步骤期间发现此损坏时声明整个高速缓冲存储器是损坏的。接着这通常需要将使用该高速缓冲存储器的整个处理器脱机,即,从系统配置中移除。在某些情况下,该响应需要将具有多个处理器的整个计算系统断电,而不仅仅是将具有故障高速缓冲存储器的处理器断电。然后计算系统将等候被修理,其通过物理上移除包含故障处理器的系统的一部分,并且用可替换故障的单元(FRU)将其替换。显然,该结果并不理想,因为对于客户而言,它导致系统可用性的降低、或甚至是完全不可用。更理想的结果将是允许计算系统在其配置中保留所述具有高速缓冲存储器的故障子部分的处理器,并持续运行,而且从配置中逻辑地(而不是物理地)移除高速缓冲存储器的故障子部分。考虑到上述内容,理想地可以提供一种机制,通过该机制,使高速缓冲存储器不可修复的子部分被识别并且从计算系统的配置中逻辑地删除,以便允许所述计算系统持续运行,并具有比此前更好的系统可用性。
技术实现思路
这里对通过本专利技术各种实施例所实现的一系列理想目的的列举并不意味着暗示或建议这些目的中的任一个或全部被独立地或共同地呈现作为本专利技术最普通的实施例中或者任何更特定的实施例中的本质特征。根据本专利技术的一方面,提供了一种包括具有高速缓冲存储器的处理器的计算系统。该高速缓冲存储器包括多个可独立配置的子部分,每一子部分包括存储器阵列。该计算系统的服务单元(SE)可被操作用于使内装自测试(BIST)被执行来测试该高速缓冲存储器,该BIST是可被操作用于确定任一子部分是否是损坏的。当确定了高速缓冲存储器被BIST所确定损坏的一个子部分是不可修复的时候,SE从系统配置中逻辑地删除所述损坏子部分,并且该SE可被操作用于允许处理器在没有该逻辑删除的子部分的情况下运行。该SE还可被操作用于确定当损坏子部分的数量超过阈值时该处理器是损坏的。根据本专利技术的另一方面,提供了一种方法,其用于在加电时部分识别出计算系统的正常高速缓冲存储器。这种方法包括当加电时在高速缓冲存储器上执行内装自测试,以便确定不同种类的高速缓冲存储器中呈现的损坏子部分的数量。确定无法被芯片上自修复技术所修复的不同类型的损坏子部分的数量。将不可修复的损坏子部分的数量报告给服务单元;并且将该不可修复子部分从计算系统的配置中逻辑删除,以使该计算系统可以在没有该逻辑删除的子部分的情况下加电并正常运行。附图说明被认为是本专利技术的主题在本说明书的结论部分被特别指出并且被明确地要求保护。但是,通过参考以下结合附图的描述,可以最佳地理解本专利技术关于实践中的结构和方法及其进一步的目的和优点,在附图中图1是示意性地说明实现本专利技术实施例的计算系统的图;图2是示意性地说明依照本专利技术实施例的计算系统的内部结构图;以及图3是说明依照本专利技术实施例的自测方法的流程图。具体实施例方式这里描述的本专利技术的实施例提供了一种系统和方法,该系统和方法在对计算机系统加电时,标识并逻辑地删除例如组部分的高速缓冲存储器的损坏子部分,以便允许该计算系统不管故障子部分的出现而继续运行。这与传统的测试形成对比,此前的测试需要计算系统保持为不运行,或者在没有包含损坏组部分的系统的处理器的情况下运行,直到通过用正常芯片替换包含损坏的组部分的芯片而修复该计算系统。如图1中所说明的,计算系统100被组织为处理器节点115的群集104。为了便于参考,在系统100中仅仅示出一个群集104。然而,该系统可以包括被链接在一起的多个这种群集,用于处理不同规模的处理任务,所述任务典型地随执行它们所需的特定资源而变化。如图1中所示,群集104包括多个处理器节点115,每个节点都可以包括一个或多个在执行计算任务时一起合作的处理器。每个处理器节点115也典型地包括一个或多个本地或主存储器部件、显示器、打印机、输入输出(I/O)设备或联网在一起的计算机设备。如图所示,通信网络130提供处理器节点115之间以及处理器节点和一个或多个存储单元120之间的通信。该通信网络130可以是简单的,包括很少的链路和节点,或者是较复杂的,具有总线、路由、大容量线路、交换机和/或其他这样的连网单元。存储单元120提供可以在执行任务时由处理器节点115访问的信息的二级和/或三级存储。存储单元120最典型地是由已知为存储器管理器或“数据移动器”的进程所使用。这种数据移动器进程使数据移动进出存储单元120和支持处理器节点115上的任务的用户缓冲器117,该用户缓冲器117提供在执行任务期间由处理器节点115所使用的数据和指令的本地存储。如图1中进一步说明的,计算系统100包括可编程服务单元(SE)190,其通过通信网络和/或通过诸如扫描接口195的二级接口连接到处理器节点115。该服务单元190的功能是在正常运行和复位期间监视群集104的处理器节点115的运行,包括对群集的加电和断电操作。该服务单元响应于可能发生的反常情况在系统中进行某些修复。该服务单元也管理群集中的硬件和固件的配置,例如处理器的数量和配置在每个节点115上的本地存储器的数量,以及群集104可用的二级存储120的总数。图2说明了上述群集的处理器节点115的内部结构,该处理器节点通过接口205连接到服务单元190,该接口205可以包括如上文参考图1所述的一部分通信网络130和/或一部分扫描接口195。如图2所示,处本文档来自技高网
...

【技术保护点】
一种具有系统配置的计算系统,所述计算系统包括:具有高速缓冲存储器的处理器,所述高速缓冲存储器包括多个可独立配置的子部分,每个子部分包括存储器阵列;服务单元,其可被操作用于使内装自测试得以执行,以测试所述高速缓冲存储器,所述内 装自测试可被操作用于确定任何所述子部分是否出现损坏,以便:(a)当所述一个子部分不可被修复,并且所述服务单元可被操作用于允许所述处理器在没有所述被逻辑删除的子部分的情况下运行之时,所述服务单元可被操作用于逻辑地删除由所述内装自测试确定为损坏的一个所述子部分,以及(b)当所述损坏子部分的数量超过阈值时,所述服务单元可被操作用于确定所述处理器为损坏的。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:WV霍特DJ伦德KH马茨BL梅希特利P帕特尔
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1