用于高速缓存和存储器相干系统中的自愈的选择性端点隔离技术方案

技术编号:34877203 阅读:16 留言:0更新日期:2022-09-10 13:32
一种高速缓存和存储器相干系统包括多个处理芯片,每一个处理芯片托管共享存储器空间的不同子集以及一个或多个路由表,该一个或多个路由表定义该共享存储器空间的逻辑地址与各自对应于该多个处理芯片中的一个所选处理芯片的端点之间的存取路由。该系统进一步包括将该多个处理芯片中的每一对处理芯片物理地耦合在一起的相干网格结构,该相干网格结构被配置成执行用于响应于对该多个处理芯片中的托管故障硬件组件的第一处理芯片的标识而更新该一个或多个路由表的路由逻辑,对路由表的更新有效地移除具有对应于该第一处理芯片的端点的所有存取路由。端点的所有存取路由。端点的所有存取路由。

【技术实现步骤摘要】
【国外来华专利技术】用于高速缓存和存储器相干系统中的自愈的选择性端点隔离

技术介绍

[0001]随着对基于云的存储和计算服务的需求快速增长,对可以在现有数据中心快速扩展(scale)硬件的技术的需求也在增长。传统上,硬件扩展是通过增加资源来“扩大规模”来实现的,例如通过向数据中心增加功率或容量。然而,最近的解决方案以“外向扩展”或“横向扩展”的方式为目标,以支持更高的性能水平、吞吐量和冗余以用于高级容错,而不增加成本和/或硬件总量(例如,不增加服务器、驱动器等的数量)。启用这种水平扩展的架构有时被称为“超大规模”。

技术实现思路

[0002]根据一个实现,一种高速缓存和存储器相干系统包括各自托管共享存储器空间的不同子集的多个处理芯片。一个或多个路由表定义该共享存储器空间的逻辑地址与各自对应于该多个处理芯片中的一个所选处理芯片的端点之间的存取路由。相干网格结构将该多个处理芯片中的每一者物理地耦合在一起并被配置成执行用于响应于对由该系统中的第一处理芯片托管的故障硬件组件的标识而更新(诸)路由表的路由逻辑。对路由表的更新有效地从(诸)路由表中移除具有对应于托管该故障硬件组件的第一处理芯片的端点的所有存取路由。
[0003]提供本公开内容以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本公开内容并不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于限制所要求保护的主题的范围。
[0004]本文还描述和列举了其他实现。
附图说明
[0005]图1A示出了示例相干CPU系统,该系统实现用于在检测到故障硬件组件后选择性地隔离该系统的一区域的自愈逻辑。
[0006]图1B示出了更新图1A的CPU相干系统中的一个或多个路由表以选择性地隔离该系统的一区域的效果。
[0007]图2A示出了另一示例相干CPU系统,该系统实现用于在检测到故障硬件组件后选择性地隔离该系统的一区域的自愈逻辑。
[0008]图2B示出了更新图1A的CPU相干系统中的一个或多个路由表以选择性地隔离该系统的一区域的效果。
[0009]图3示出了相干CPU系统的示例性架构,该系统实现用于在检测到硬件组件故障后选择性地隔离一系统端点的自愈逻辑。
[0010]图4示出了用于在高速缓存和存储器相干多芯片系统内实现自愈逻辑的示例操作。
[0011]图5解说了适于实现所公开技术的各方面的处理设备的示例示意图。
具体实施方式
[0012]允许处理器之间的存储器、高速缓存和/或I/O相干性的超大规模架构作为增加可由现有硬件支持的用户数量的一种方式并且作为次级效果对存储去重(并由此降低数据成本)正受到欢迎。多处理器系统在其多个CPU共享单个存储器空间以使得在任何CPU处都能对任何存储器位置进行数据读写时被称为是“相干的”或具有相干CPU架构。相干CPU架构依赖于高速缓存和存储器这两者的相干性(例如,该系统的每一个处理器知晓数据的最新近版本在哪里,即使该数据在由另一处理器托管的本地高速缓存内)。
[0013]在相干CPU架构中,问题可能在共享硬件组件故障时引发并且在事实上被放大。例如,如果多个处理器被配置成从同一存储器组件读写数据,则可能在该存储器组件故障时导致全系统挂起。同样,单个处理组件或共享总线上的故障可具有类似后果,最终扰乱更多用户和/或挂起比原本出现在传统(非相干)CPU架构中更多的系统进程。
[0014]尽管某些相干系统包括启用对硬件健康的自监视以便更快地检测到潜在硬件故障问题的模块,但这些系统仅仅生成关于所推荐的替换和修复的通知。在硬件故障与组件维修和/或替换之间的时间中,整个CPU相干系统(例如,具有各自支持不同进程和/或用户的多个片上系统(SoC)的服务器)可能变得无法运作。
[0015]本文所公开的技术允许这些相干CPU系统通过响应于检测到并标识(诸)故障(例如,失灵、失败、或失效)硬件组件的相对位置而在逻辑上隔离该系统的包括(诸)故障组件的部分来至少部分地“自愈”。在一个实现中,对故障硬件的这种隔离允许存储器和高速缓存相干系统中的CPU的其余健康子集继续按标称运作,诸如通过继续服务用户请求并执行进程,只要这些请求和进程不需要存取该系统的隔离部分内的资源。在许多情形中,该隔离允许该系统在其标称“健康”水平的高百分比下执行,诸如通过继续支持连接到相干CPU系统(例如,服务器)的用户的重大子集(例如,50%、75%或更多)和/或通过继续按标称操作总处理和存储资源的一大部分(例如,50%、75%或更多)。
[0016]图1A示出了示例CPU相干系统100,该系统实现用于在检测到故障硬件组件后选择性地隔离该系统的一区域的自愈逻辑。CPU相干系统100包括通过相干网格结构130耦合在一起的多个处理芯片。相干网格结构130一般可被理解为涵盖允许每一个处理芯片共同作为存储器相干和高速缓存相干系统操作以使得该系统中的所有处理实体能对任何存储器位置进行数据读写并知晓该系统中存储的任何数据的最新近版本的位置(即使该数据驻留在由不同处理芯片托管的本地高速缓存中)的物理互连和逻辑架构。
[0017]示例CPU相干系统100包括四个处理芯片,标注为IC_1、IC_2、IC_3和IC_4。这些不同处理芯片中的每一者托管存储器(例如,存储器108、110、112和114)并且包括至少一个CPU(例如,CPU 104、116、118和120)。在一个实现中,处理芯片(IC_1、IC_2、IC_3和IC_4)中的每一者是包括多个处理器的片上系统(SoC),该多个处理器包括例如一个或多个CPU以及一个或多个图形处理单元(GPU)。如此处所使用的,处理芯片在以下情况下被称为“托管”存储器:它物理地包括该存储器或者直接耦合到该存储器以使得路由到该存储器的数据不跨托管该存储器的处理芯片与该存储器自身之间的任何其他处理芯片流动。
[0018]在图1A中,在一个实现中,四个不同处理芯片耦合到同一印刷电路板组件(PCBA),诸如以便共同作为同一服务器(例如,有时被称为“刀片”的刀片服务器)的一部分操作。在其他实现中,这些处理芯片中的一者或多者在不同的PCBA上,但仍物理地接近存储器和高
速缓存相干系统中的其余处理芯片以允许极快的芯片到芯片易失性存储器存取(对于CPU相干系统的操作是关键的特性)。例如,处理芯片可以在集成在同一服务器内或同一数据存储中心中的物理地接近的两个或更多个服务器内的不同PCBA上。
[0019]由每一个处理芯片托管的存储器108、110、112和114可被理解为包括至少易失性存储器并且在许多实现中包括易失性和非易失性存储器。在一个实现中,处理芯片(IC_1、IC_2、IC_3和IC_4)中的每一者托管共同映射到同一逻辑地址空间的系统存储器的不同子集。例如,由各个处理芯片托管的非易失性存储器空间可被映射到由主机在对CPU相干系统100读写数据时使用的逻辑地址范围。在一个实现中,主机寻址方案的每一个逻辑地址被映射到该系统中的仅仅单个非易失性存储器位置(例如,由这四个处理芯片中的单个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种高速缓存和存储器相干系统,包括:各自托管共享存储器空间的不同子集的多个处理芯片;一个或多个路由表,所述一个或多个路由表定义所述共享存储器空间的逻辑地址与各自对应于所述多个处理芯片中的一个所选处理芯片的端点之间的存取路由;以及将所述多个处理芯片中的每一者物理地耦合在一起的相干网格结构,所述相干网格结构被配置成执行用于响应于检测到故障硬件组件并标识所述多个处理芯片中的托管所述故障硬件组件的第一处理芯片而更新所述一个或多个路由表的路由逻辑,对所述一个或多个路由表的所述更新有效地移除具有对应于所述第一处理芯片的端点的所有存取路由。2.如权利要求1所述的高速缓存和存储器相干系统,其中所述相干网格结构执行所述路由逻辑以移除具有对应于所述第一处理芯片的端点的存取路由,而不添加去往由被移除存取路由标识的逻辑地址的新存取路由。3.如权利要求1所述的高速缓存和存储器相干系统,其中所述相干网格结构包括使用外围组件互连快速(PCIe)物理接口的通信总线。4.如权利要求1所述的高速缓存和存储器相干系统,其中所述处理芯片是被布置在同一印刷电路板组件(PCBA)上的片上系统(SoC)。5.如权利要求1所述的高速缓存和存储器相干系统,进一步包括控制器,所述控制器被存储在存储器中并被配置成分析系统日志信息以标识所述多个处理芯片中托管所述故障硬件组件的所述第一处理芯片。6.如权利要求1所述的高速缓存和存储器相干系统,其中所述高速缓存和存储器相干系统被进一步配置成将所述处理芯片中的两个或更多个处理芯片上的资源池化在一起以向用户提供虚拟机体验。7.如权利要求1所述的高速缓存和存储器相干系统,其中所述相干网格结构执行用于响应于所述高速缓存和存储器相干系统的重启而更新所述一个或多个路由表的路由逻辑。8.一种方法,包括:分析系统日志信息以标识故障硬件组件在高速缓存和存储器相干系统内的位...

【专利技术属性】
技术研发人员:P
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1