当前位置: 首页 > 专利查询>英特尔公司专利>正文

在系统中的错误处置设备中记录错误技术方案

技术编号:21453695 阅读:29 留言:0更新日期:2019-06-26 04:42
错误处置设备记录包括连接到错误处置设备的多个设备的计算系统中的错误。错误处置设备提供错误寄存器组。每个错误寄存器组与多个值中的值相关联。将错误传送到错误处置设备的设备中的每个设备与值中的一个值相关联。错误处置设备从连接到错误处置设备的设备接收错误消息,并且针对接收到的错误消息中的每个接收到的错误消息,确定多个值中的与发送接收到的错误消息的设备相关联的值,确定与所确定的值相关联的错误寄存器组,并且将接收到的错误消息记录在所确定的错误寄存器组中。

【技术实现步骤摘要】
在系统中的错误处置设备中记录错误
本文描述的实施例总体上涉及在系统中的错误处置设备中记录错误。
技术介绍
系统(例如,片上系统(SOC))提供对来自连接设备的错误的记录和处置。在连接到SOC的设备处并且在SOC内不同通信层处的分组传输中可能发生错误,例如,事务层错误、数据链路层错误、物理层错误。错误可以被分类为由硬件处置的可纠正错误以及由设备特定软件和系统软件处置的不可纠正错误,例如,致命错误和非致命错误。系统设计中的可靠性、可用性和可维护性(RAS)要求包括错误收集,即记录和报告错误。需要错误报告来执行平台诊断,以便如果灾难性错误变为强制性的,则识别服务器系统在现场(原位地和远程地)停机的原因,进行崩溃数据收集以及FRU(现场可更换单元)隔离。由于意外的全局功率周期和非预期的热重置事件可能阻碍在可能使系统冻结或受到网络攻击的灾难性错误之后读取错误数据的能力,因此在重置之前和之后新的错误收集方案是必不可少的,以便系统管理程序快速调试并且通过将故障原因隔离并本地化到平台、SOC或芯片组内的各种功能块(IP)内来减少宕机时间。用于Intel服务器的服务器错误报告方案由全局集成错误处置器(GIEH)构成,该GIEH与分布在片上系统(例如,SOC封装的北复合体和南复合体)中的平台控制器中心(PCH)中的多个卫星集成错误处置器(SIEH)耦合。对于例如与基于IntelAtomTM的单片管芯一起使用的u-server错误架构,SOC具有连接到产生错误的各种错误源的单个GIEH。在客户端系统的情况下,SOC依赖于中断定时器子系统(ITSS)IP来进行错误记录方案和报告,其为PCH提供一个错误记录位。附图说明参考附图,通过示例的方式描述了实施例,附图未按比例绘制,其中相同的附图标记指代相似的元素。图1示出了实施例在其中实现的系统。图2示出了错误处置设备的实施例。图3示出了错误消息的实施例。图4示出了全局/本地错误寄存器组的实施例。图5示出了系统事件控制寄存器条目的实施例。图6示出了错误处置逻辑的实施例。图7示出了用于对接收到的错误消息进行处理的错误处置逻辑的实施例。图8示出了用于对全局错误寄存器中的记录的错误进行检测的错误处置逻辑的实施例。图9示出了用于对来自另一错误处置设备的错误消息进行处理的错误处置逻辑的实施例。图10示出了图1的系统可以在其中部署的系统。具体实施方式所描述的实施例提供平台控制器中心(PCH)中的错误处置,PCH部署多个错误处置设备以收集错误并将错误传播到全局错误处置设备,以适应其中将部署错误处置实施例的、从服务器到客户端的各种类型的系统。所描述的实施例提供了广泛的错误记录和报告能力以供软件使用,以与其他早期实现方式相比以及时地方式快速调试和隔离故障单元。所描述的实施例通过在错误处置设备中的每个错误处置设备中提供错误寄存器(例如,全局错误寄存器和本地错误寄存器)来提供对错误报告的改进。值(例如,位值)提供对错误寄存器中的寄存器组的索引。连接到错误处置设备的设备中的每个设备与值中的一个值相关联,以将传送错误消息的设备与错误寄存器中的错误寄存器组进行关联。然后将设备的错误记录在该设备映射到的错误寄存器组中。在某些实施例中,设备的端口标识符可以用于确定其中记录错误消息的错误寄存器组。此外,利用所描述的实施例,来自诸如快速外围组件互连(PCIe)设备和传统设备之类的设备、本地结构的错误消息和记录在全局错误寄存器中的内部错误作为系统事件被报告,以考虑传播到从分布在贯穿通过主接口连接的不同平台控制中心(PCH)中的多个错误处置设备接收错误的全局错误处置设备。在以下描述中,阐述了诸如逻辑实现方式、操作码、用于指定操作数的单元、资源划分/共享/复制实现方式、系统组件的类型和相互关系以及逻辑划分/集成选择之类的许多具体细节,以便提供对本专利技术的更透彻的理解。然而,本领域技术人员将理解,可以在没有这些具体细节的情况下实践本专利技术。在其他实例中,没有详细示出控制结构、门级电路和完整软件指令序列,以免模糊本专利技术。利用所包括的描述,本领域普通技术人员将能够实现适当的功能而无需过多的实验。说明书中对“一个实施例”、“实施例”、“示例实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性,但是每个实施例可以不一定包括该特定特征、结构或特性。此外,这些短语不一定指代相同的实施例。某些实施例涉及存储设备电子组件。实施例包括用于形成电子组件的设备和方法两者。图1示出了系统100的实施例,例如,片上系统(SOC)或由多个集成电路管芯组成,包括经由网格或其他接口104连接到不同平台控制器中心(PCH)106a、106b的多个处理核心102。在一个实施例中,PCH106a可以包括北桥中心,并且PCH106b可以包括南桥中心。PCH106a包括错误处置设备200a和错误处置设备200b,错误处置设备200a用于记录来自连接设备1101、1102的错误,错误处置设备200b用于记录来自设备1103、1104和诸如基于集成片上系统结构(IOSF)规范的主要可扩展结构(PSF)之类的本地结构114a的错误。IOSF规范和PSF规范由公司开发(Intel是全世界的注册商标)。PCH106b包括错误处置设备200c,用于记录来自设备1105、1106和本地结构112b、112c(例如,PSF)的错误。PCH106a、106b经由主接口112a、112b(例如,直接媒体接口(DMI)、RLINK等)连接。PCH106a还包括互连结构116a、116b,以提供错误处置设备200a、200b的互连。错误处置设备200a、200b和200c可以将错误传播到PCH106a中的全局错误处置设备118。设备1101、1102……1106可以位于系统100的外部,例如,SOC外部的设备。设备1101、1102……1106可以包括传统设备和PCIe设备,例如,存储器、存储装置、图形卡等。在替代实施例中,系统100中可以只有一个或多于两个PCH,比所示出的更少或不同的类型或数量的互连,以及比所示出的更少或更多的设备、结构和互连。可以使用IOSF、PSF和网格接口和/或不同类型的接口协议来实现互连和结构。图2示出了错误处置设备中的一个错误处置设备的实例200i,例如,错误处置设备200a、200b、200c,并且包括用于连接到主接口112a、112b的主接口202(例如,IOSTF主接口),用于在IOSF类型接口上接收和发送错误消息的边带接口204,用于与PCIe设备通信的PCIe配置寄存器206,以及错误处置器208。错误处置器208包括用于执行错误处置操作的逻辑600,其中记录错误消息以转发到全局错误处置设备118的全局错误寄存器212,以及其中还记录包括错误处置设备200i中的内部错误(例如,主接口202、PCIe配置寄存器206和边带接口204以及连接的本地结构中的内部错误,例如,本地结构错误112a、112b)在内的某些错误的本地错误寄存器214。错误处置器标识符(ID)寄存器216提供错误处置设备之中的错误处置设备200i的唯一标识符。系统事件控制寄存器500指示何时掩蔽或不掩蔽记录在全局错误寄存器212中以转发到全局错误处置设备118的本文档来自技高网...

【技术保护点】
1.一种错误处置设备,用于记录包括连接到所述错误处置设备的多个设备的计算系统中的错误,其中,所述错误处置设备被配置为:提供错误寄存器组,其中,每个错误寄存器组与多个值中的值相关联,并且其中,将错误传送到所述错误处置设备的所述设备中的每个设备与所述值中的一个值相关联;从连接到所述错误处置设备的所述设备接收错误消息;以及针对接收到的错误消息中的每个接收到的错误消息进行以下操作:确定所述多个值中的与发送所述接收到的错误消息的设备相关联的值;确定与所确定的值相关联的所述错误寄存器组;以及将所述接收到的错误消息记录在所确定的错误寄存器组中。

【技术特征摘要】
2017.12.18 US 15/846,1701.一种错误处置设备,用于记录包括连接到所述错误处置设备的多个设备的计算系统中的错误,其中,所述错误处置设备被配置为:提供错误寄存器组,其中,每个错误寄存器组与多个值中的值相关联,并且其中,将错误传送到所述错误处置设备的所述设备中的每个设备与所述值中的一个值相关联;从连接到所述错误处置设备的所述设备接收错误消息;以及针对接收到的错误消息中的每个接收到的错误消息进行以下操作:确定所述多个值中的与发送所述接收到的错误消息的设备相关联的值;确定与所确定的值相关联的所述错误寄存器组;以及将所述接收到的错误消息记录在所确定的错误寄存器组中。2.根据权利要求1所述的错误处置设备,其中,所述设备的端口标识符映射到所述值,其中,确定发送所述接收到的错误消息的设备的所述值是:确定映射到发送所述接收到的错误消息的设备的所述端口标识符的所述值。3.根据权利要求1所述的错误处置设备,与全局错误处置设备通信,还包括:系统事件控制寄存器,其针对多个严重度级别中的每个严重度级别指示具有所述严重度级别的所述接收到的错误消息是被掩蔽还是不被掩蔽;其中,所述错误处置设备还用于:在所述错误寄存器组中指示在所述接收到的错误消息中指示的错误的严重度;以及响应于所述系统事件控制寄存器指示针对所述接收到的错误消息,在所述错误寄存器组中指示的所述严重度级别不被掩蔽,而将所述接收到的错误消息转发到所述全局错误处置设备。4.根据权利要求1所述的错误处置设备,其中,连接到所述错误处置设备的所述设备中的至少一个设备实现多个设备功能,其中,所述错误寄存器组中存在针对实现多个设备功能的所述设备中的每个设备的所述设备功能中的每个设备功能的一个寄存器组,其中,针对实现多个设备功能的所述至少一个设备的所述寄存器组指示所述设备和所述设备的功能。5.根据权利要求1所述的错误处置设备,其中,每个错误寄存器组包括针对错误严重度级别的错误严重度状态寄存器和针对所述错误严重度状态寄存器中的每个错误严重度状态寄存器的掩码寄存器,其中,将所述接收到的错误消息记录在所确定的寄存器组中包括:确定针对在所述接收到的错误消息中指示的严重度级别的所述掩码寄存器是指示所述严重度级别被掩蔽还是不被掩蔽,其中,响应于针对所述严重度级别的所述掩码寄存器指示不被掩蔽,所述接收到的错误消息被记录,并且其中,记录所述接收到的错误消息还包括:在针对所述接收到的错误消息中的所述严重度级别的所述错误严重度状态寄存器中指示所述接收到的错误消息中的所述严重度级别,其中,响应于针对所述接收到的错误消息的所述严重度级别的所述掩码寄存器指示被掩蔽,所述接收到的错误消息不被记录在所述错误寄存器组中。6.根据权利要求5所述的错误处置设备,其中,针对其存在错误严重度状态寄存器的所述错误严重度级别包括可纠正的错误、致命不可纠正的错误以及非致命不可纠正的错误。7.根据权利要求1所述的错误处置设备,与全局错误处置设备通信,其中,所述错误寄存器组包括全局错误寄存器和本地错误寄存器,其中,所述错误处置设备还用于:确定所述接收到的错误消息是否指示本地错误消息,其中,响应于所述接收到的错误消息指示所述本地错误消息,所确定的错误寄存器组在所述本地错误寄存器中,并且其中,响应于所述接收到的错误消息不指示本地错误消息,所确定的错误寄存器组在所述全局错误寄存器中;以及将记录在所述全局错误寄存器中的错误消息转发到所述全局错误处置设备。8.根据权利要求7所述的错误处置设备,其中,所述本地错误寄存器提供预先分配给来自所述错误处置设备和耦合到所述错误处置设备的至少一个本地结构的内部错误的寄存器组,其中,所述错误处置设备还用于:将记录在所述本地错误寄存器中的寄存器组中的所述接收到的错误消息记录在所述全局错误寄存器中的寄存器组中;以及将记录在所述本地错误寄存器和所述全局错误寄存器中的寄存器组中的所述接收到的错误消息转发到所述全局错误处置设备。9.根据权利要求8所述的错误处置设备,其中,针对所述内部错误和来自所述至少一个本地结构的错误的接收到的错误消息被记录在所述全局错误寄存器中的一个寄存器组中。10.根据权利要求7所述的错误处置设备,其中,所述全局错误寄存器记录来自耦合到所述错误处置设备的传统设备和外围组件互连交换(PCIe)设备的错误,其中,所述本地错误寄存器记录来自所述错误处置设备的内部错误和来自耦合到所述错误处置设备的至少一个本地结构的错误,并且其中,所述全局错误寄存器中的与所述值中的一个值相关联的一个错误寄存器组记录所述内部错误和来自所述至少一个本地结构的错误。11.根据权利要求1所述的错误处置设备,其中,所述计算机系统包括所述计算机系统中的多个附加错误处置设备和全局错误处置设备,所述多个附加错误处置设备记录所述计算机系统中的与由所述错误处置设备处置的不同的设备的错误,所述全局错误处置设备用于记录来自所述错误处置设备和所述附加错误处置设备的接收到的错误消息,其中,所述附加错误处置设备和所述错误处置设备被编程有唯一标识符以区分所述错误处置设备,其中,所述错误处置设备还用于:将记录在所述错误寄存器组中的接收到的错误消息转发到包括所述错误处置设备的所述唯一标识符的所述全局错误处置设备。12.根据权利要求1所述的错误处置设备,其中,所述错误处置设备还用于:当所述错误处置设备不提供到全局错误处置设备的直接接口时,通过到附加错误处置设备的主接口将记录在所述错误寄存器组中的接收到的错误消息转发到所述全局错误处置设备,其中,接收到所述接收到的错误消息的所述附加错误处置设备将所述接收到的错误消息转发到所述全局错误处置设备;以及当所述错误处置设备提供到所述全局错误处置设备的直接接口时,将记录在所述错误寄存器组中的接收到的错误消息转发到所述全局错误处置设备。13.根据权利要求12所述的错误处置设备,其中,所述错误处置设备还用于:在指向所述全局错误处置设备的主接口上接收错误消息;将指向所述全局错误处置设备的所述接收到的错误消息记录在所述错误寄存器中;以及通过直接接口将所述错误消息转发到所述全局错误处置设备。14.一种系统,包括:处理器;多个设备,其与所述处理器通信;错误处置设备,其用于记录所述系统中的错误,其中,所述错误处置设备被配置为:提供错误寄存器组,其中,每个错误寄存器组与多个值中的值相关联,并且其中,将错误传送到所述错...

【专利技术属性】
技术研发人员:S·拉达克里希南M·特里维迪J·托利伊尔E·A·麦克沙恩R·W·刘M·S·纳图
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1