一种不需要重置系统的附加到系统的设备的错误恢复的方法和系统。在本发明专利技术的一个实施例中,平台检测到附加设备的错误并且关闭与附加设备的通信链路。平台纠正错误并且自动地重新训练与附加设备的通信链路。通过这种方式,在本发明专利技术的一个实施例中,不需要重置平台来纠正检测到的错误。
【技术实现步骤摘要】
【专利说明】 本申请是申请日为2013年3月22日、申请号为201180045741. 6、专利技术名称为"实 时错误恢复的方法和系统"的申请的分案申请。
本专利技术涉及错误恢复,并且更具体地而非排它地,涉及不需要重置系统的附加到 系统上的设备的错误恢复的方法和系统。
技术介绍
平台通常具有数个经由通信接口连接的外围设备。当连接到平台的任意一个设备 经历不可纠正的错误时,需要重置平台来纠正所述不可纠正错误。平台的重置防止了不可 纠正错误的传播。 虽然平台的重置能够解决设备中的不可纠正错误,但是平台的重置减小了平台的 可靠性。在关键任务计算机平台或服务器中,当遇到不可纠正错误时进行平台的重置能对 平台所需的99. 999%的正常运行时间造成巨大影响。【附图说明】 本专利技术的实施例的特征和优点将从下列主题的详细描述中变得清晰,其中: 图1示出了根据本专利技术一个实施例的平台的框图。 图2示出了根据本专利技术一个实施例的控制器。 图3示出了本专利技术一个实施例的实时错误恢复链路状态机。 图4示出了根据本专利技术一个实施例的实时错误恢复逻辑的框图。 图5示出了根据本专利技术一个实施例的实时错误恢复的流程图。 图6示出了根据本专利技术一个实施例的实时错误恢复的流程图。 图7示出了根据本专利技术一个实施例的实时错误恢复的流程图。 图8示出了根据本专利技术一个实施例的实现本文中公开的方法的系统。 图9示出了根据本专利技术一个实施例的实现本文中公开的方法的系统。【具体实施方式】 通过示例方式而非通过在附图中进行限制方式来示出本文描述的本专利技术的实施 例。为了说明的简洁和清楚,附图中说明的元件未必按照比例绘制。例如,为了清楚,可以 相对于其他元件放大一些元件的尺寸。此外,当认为合适时,会在附图中重复附图标记以指 示相应的或类似的元件。本说明书中引用本专利技术的"一个实施例"或"实施例"指结合包括 在本专利技术的所描述的特定特征、结构或特性包括在本专利技术的至少一个实施例中。本说明书 中各处出现的短语"在一个实施例中"并不必然全都指同一实施例。 本专利技术的实施例提供了附加到系统的设备的错误恢复方法和系统,而不需要系统 重置。在本专利技术的一个实施例中,系统或平台检测到所附设备的错误并关闭与所附设备的 通信链路。平台纠正错误并自动地重新训练与所附设备的通信链路。通过这种方式,在本 专利技术的一个实施例中,不需要重置平台来纠正检测到的错误。平台或系统包括但不限于:台 式计算机、膝上型计算机、上网本、笔记本计算机、个人数字助理(PDA)、服务器、工作站、蜂 窝式电话、移动计算设备、互联网装置或任何其它类型的计算设备。 在本专利技术的一个实施例中,平台能够选择一种或多种类型的错误用于实时错误恢 复。所述错误包括但不仅限于:不可纠正错误、可纠正错误、非致命性错误、致命性错误,和 其他类型的错误分类。不可纠正错误包括但不仅限于:影响平台接口的功能的错误情况。可 纠正错误包括但不仅限于:平台的硬件能恢复而没有任何信息损失的错误情况。致命性错 误包括但不仅限于:致使特定通信链路和相关的硬件不可靠的不可纠正错误情况。非致命 性错误包括但不仅限于:致使特定事务不可靠但是通信链路是功能完善的不可纠正错误。 图1示出了根据本专利技术一个实施例的平台105的框图100。在本专利技术的一个实施 例中,平台与由PCI特别兴趣组织(PCI-SIG)维护的外围部件互连(PCI)高速(PCIe)标准 或规范至少是部分兼容的。 在本专利技术的一个实施例中,平台105具有耦合到根联合体120的处理核心110。根 联合体120与总线140和存储器130相耦合,并且支持三个根端口 142、144和146。根端口 142、144和146经由PCIe通信链路152、154和156分别地耦合到PCIe终端设备1-3160、 162和164。在本专利技术的一个实施例中,根联合体120代表处理器核心110生成事务请求。 在本专利技术的一个实施例中,根联合体120与处理核心120相集成。 在本专利技术的一个实施例中,根端口 142、144和146中的每一个均具有当检测到错 误时执行实时错误恢复的逻辑。在本专利技术的一个实施例中,当检测到错误时,根端口 142、 144和146中的每一个的实时错误恢复促使它们对应的PCIe通信链路进行自动恢复,而不 需要重置平台105。 例如,在本专利技术的一个实施例中,根端口 142具有状态机来检测PCIe设备160的 任何错误。例如,在本专利技术的一个实施例中,当从PCIe设备1160接收分组时根端口 142的 物理层(PHY)检测接收机错误,并捕获(trap)接收机错误。根端口 142在检测到接收机错 误之后,强迫降低或关闭PCIe通信链路152的连接状态。通过这样做,在本专利技术的一个实 施例中,根端口 142防止错误或错误分组的传播。 根端口 142向平台105指示已检测并且捕获PCIe通信链路152的错误。在本发 明的一个实施例中,根端口 142向平台105做出的指示包括但不仅限于:设置中断信号、写 寄存器、向处理核心110发送信号等。相关领域的一个普通技术人员将容易地理解根端口 142能够使用任意其他方法或机制来向平台105指示已检测并捕获错误。在不影响本专利技术 工作的情况下,也能够使用其他的方法或机制。 当平台105已从根端口 142接收到已检测并且捕获PCIe通信链路152的错误的 指示时,平台105纠正或改正不可纠正错误。在本专利技术的一个实施例中,平台105使用软件 来执行错误处理或错误管理。当平台105已结束错误纠正时,平台105发出完成错误恢复 的指示。 在接收来自平台105的完成错误恢复的指示之后,根端口 142重新启动PCIe通信 链路152。根端口 142重新训练PCIe通信链路152,并当重新训练完成时使PCIe通信链路 152为接通(Linkup)状态。根端口 142向链路训练和状态机(LTSSM)发送信号或指示,并 且平台105初始化根端口 142并允许PCIe设备1160恢复正常操作。 根端口 144和146的工作类似于根端口 142,并且在本文中不再重复。平台105的 配置并不意味着限制,并且在不影响本专利技术工作的情况下,也能使用平台105的其他配置。 图2示出了根据本专利技术一个实施例的控制器205。为了说明清楚的目的,参考图1 对图2进行讨论。在本专利技术的一个实施例中,当检测到错误时,根端口 142、144和146中的 每一个都具有控制器205来执行实时错误恢复。 在本专利技术的一个实施例中,控制器205具有PCIe物理链路层和事务层210以及请 求队列220。请求队列220与用于根端口的端口仲裁的仲裁器350相耦合。PCIe物理链路 层和事务层210提供了 PCIe通信链路212来促进根端口和PCIe终端设备之间的通信。从 PCIe通信链路212接收来自PCIe终端设备的PCIe分组并且事务层处理PCIe。相关领域 的一个普通技术人员将容易地理解物理链路层和事务层220的工作,并且将不作描述。 请求队列220维护完成队列222、投递式(posted)请求队列224和非投递式 (non-posted)请求队列226。在本专利技术的一个实施例中,控制器205的请求指的是启动事 务序列的分组。请求包括但不仅限于本文档来自技高网...
【技术保护点】
一种处理器,包括:与设备耦合的至少一个接口;其中,所述接口包括物理层逻辑,用于:检测将从另一设备接收的数据中的错误;识别所述错误是不可纠正错误;响应于所述不可纠正错误而防止错误数据的传播,其中错误数据的传播将被防止而不发生重置。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:S·穆特拉沙纳鲁,D·达斯夏尔马,J·佩罗奥苏布拉亚,E·R·韦哈格,
申请(专利权)人:英特尔公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。