当前位置: 首页 > 专利查询>英特尔公司专利>正文

延迟错误处理制造技术

技术编号:19744876 阅读:23 留言:0更新日期:2018-12-12 04:40
一种计算设备,包括:硬件平台,包括处理器和存储器;和系统管理中断(SMI)处置器;第一逻辑,被配置为经硬件平台提供第一容器和第二容器;和第二逻辑,被配置为:检测第一容器中的不可校正错误;响应于检测,产生降级系统状态;将降级状态消息提供给SMI处置器;指令第二容器寻找可恢复状态;确定第二容器已进入可恢复状态;以及开始恢复操作。

【技术实现步骤摘要】
延迟错误处理
本公开一般地涉及云计算的领域,并且更具体地但并不排它地,涉及一种用于延迟错误处理的系统和方法。
技术介绍
现代计算实践已放弃硬件专用计算并转向“网络即装置”。现代网络可包括数据中心,数据中心主控大量通用硬件服务器装置,所述大量通用硬件服务器装置被包含在例如服务器机架中并且由管理程序控制。每个硬件装置可运行虚拟装置(诸如工作负载服务器或虚拟桌面)的一个或多个实例。附图说明当结合附图阅读时,根据下面的详细描述来最好地理解本公开。需要强调的是,根据行业中的标准实践,各种特征未必按照比例绘制,并且仅用于说明目的。在明确地或隐含地示出比例的情况下,它仅提供一个说明性示例。在其它实施例中,为了讨论的清楚,各种特征的尺寸可被任意增加或减小。图1是根据本说明书的一个或多个示例的云服务提供商(CSP)的网络级图。图2是根据本说明书的一个或多个示例的数据中心的方框图。图3图示根据本说明书的一个或多个示例的中央处理单元的方框图。图4是根据本说明书的一个或多个示例的数据中心计算架构的方框图。图5是图示根据本说明书的一个或多个示例的不可校正错误的恢复如何影响多个容器的方框图。图6a–6b是根据本说明书的一个或多个示例的执行延迟错误处理的方法的信号流程图。具体实施方式下面的公开提供用于实现本公开的不同特征的许多不同实施例或示例。以下描述部件和布置的特定示例以简化本公开。这些当然仅是示例,并且不意图是限制性的。另外,本公开可在各种示例中重复参考数字和/或字母。这种重复是为了简单和清楚的目的,并且本质上并非指示讨论的各种实施例和/或配置之间的关系。不同实施例可具有不同优点,并且并不必然要求任何实施例具有特定优点。在现代数据中心中,可实现非常高的计算密度。例如,一批高性能计算平台可被聚集成刀片底盘(bladechassis)或计算滑车(computesled),并且该底盘可随后消耗机架底盘中的一个或多个槽。具有这种类型的几个高密度计算节点的机架因此可在具有例如42U或类似容量的单个机架中主控数十或数百个核心。软件工程技术可将采用这种架构的每个核心作为目标以在多线程过程中运行单个线程。单个应用可具有多个线程,并且因此,可消耗多个处理器核心。一个或多个另外的核心还可专用于提供操作系统和/或其它支持软件。在一些情况下,为了节省为每个分立应用提供单独操作系统的开销,在也保持应用之间的某种逻辑分离的同时,单个操作系统可运行许多“容器”。这些容器可共享低级操作系统资源,但另一方面可彼此隔离。这种架构支持提供计算、存储、通信和加速资源,这些资源能够在经结构连接的数据中心中提供。如上所述的容器的优点在于:它们为基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)提供模块化并且灵活的机架规模实现方式。这种多容器化系统中的一个挑战在于:一个容器中的单个不可校正错误可能引起分级结构的故障,并且在一些情况下,可使底层操作系统发生故障,因此引起跨其它容器的数据丢失。在较低优先级容器可能遇到错误并且可能因此引起较高优先级容器发生故障的情况下,这可能尤其具有挑战性。在一些示例中,情况可能恶化,因为较低优先级容器可能具有较不强健的编程模型,而较高优先级容器可能更加“坚固”并且更加强健。因此,较不强健的较低优先级容器可能引起与更加强健的较高优先级容器的非预期交互。例如,一个实现方式可包括提供电子邮件服务器的一个容器和提供高可用性数据库服务器的另一容器。如果低优先级电子邮件服务器遇到不可校正错误(诸如,损坏的存储器位置),则操作系统错误处置例程可能需要完全重新启动以确保存储器完整性。不幸的是,这种完全重新启动不仅将会影响低优先级电子邮件服务器,而且将会影响高优先级高可用性数据库服务器。另外,如果在数据库服务器正在执行关键操作(诸如,数据库写操作)的同时发生故障,则该故障可能事实上导致数据库本身中的一个或多个记录的损坏。尽管可通过在单个操作系统上仅提供同质容器(诸如,在单个操作系统中仅为数据库服务器提供其它数据库服务器)来部分地避免这个问题,但这个策略可能影响容器化计算的优点。另外,这种错误不能被完全避免,因为即使非常强健的应用也可能遇到错误。因此,如果多个容器各自正在运行非常强健的数据库服务器,如果那些数据库服务器之一遇到不可校正错误,则它将会使所有数据库服务器发生故障。这种不可校正错误的示例包括存储器子系统RAS堆栈(硬件、固件和/或软件)中的错误。从这种不可校正错误恢复的尝试可包括增强MCA产生到基础固件模型。因此,提供能够从不可校正错误更加从容地恢复的系统是有益的。特别地,并非当在单个容器中运行的应用遇到不可校正错误时立即前往错误处置器例程,而是替代地能够实现延迟错误处置。这种延迟错误处置是可行的,因为虽然容器可能共享底层操作系统服务,但它们通常不共享存储器页或其它资源。因此,对于一个容器而言存储器页可能损坏或无法访问的事实不应该影响另一容器。因此,替代于立即前往可能使其它容器发生故障并且引起数据丢失的灾难性错误恢复,能够实现延迟错误处置。利用延迟错误处置,可以通知其它容器寻找“可恢复状态”或者另一方面为错误处置做准备。如遍及本说明书所使用的,“可恢复状态”是节点的工作负载被完成、最小化或减少并且因此,数据丢失或数据损坏的危险也被消除、最小化或减少的状态。与容器的活动状态相比,可恢复状态可以是相对静止的状态。例如,如果容器是数据库驱动器,则可恢复状态可以是这样的状态:在该状态中它不再接受新的到来的数据库连接,并且所有未决操作已被完成和提交。在web服务器的情况下,可恢复状态可以是这样的状态:在该状态中它不再接受到来的HTTP连接,并且所有未决事务已被合理地处置。在计算节点(例如,对于大型并行计算而言)的情况下,可恢复状态可以是这样的状态:在该状态中它不再接受到来的计算事务,并且已完成和输出已有事务。在又一示例中,可恢复状态可包括这样的状态,其中容器能够被迁移到具有最小数据丢失的新硬件平台,在这种情况下,容器可在错误恢复发生之前被迁移。尽管错误恢复被延期,但遇到错误的容器本身可被停止。因为它已遇到不可校正错误,所以它可能无法继续进行计算或处理。然而,在采用软件定义的联网和网络功能虚拟化的柔性数据中心中,经常可行的是,产生该服务的新实例用于处置由于发生故障的容器中的一个实例的丢失而丢失的任何另外的工作负载。需要注意的是,如这里所公开的,“寻找”可恢复状态不必要求“降级”(但未停止)的容器立即停止接受到来的事务。为了避免数据中心服务的崩溃,降级的容器可继续接受新的到来的连接或事务,同时数据中心处于更高负载下,并且可等待,直至负载逐渐减少以停止接受新的到来连接或事务。但是因为停止的容器正在消耗在别处不能被分配的资源,所以错误处理可能不被无限地延期。寻找可恢复状态的指令可包括超时。如果容器未在超时期满之前达到它的最佳可恢复状态,则错误处置可被以任何方式处理,使得由停止的节点消耗的资源可被带回到数据中心上的循环中。针对不可校正错误的最终响应可取决于系统能力。例如,该响应可以包括关机和重新启动或错误恢复。在错误恢复被禁用或不可用的一些情况下,该响应可通常是计算资源的关机,后面是错误收割(errorharvesting),然后本文档来自技高网...

【技术保护点】
1.一种计算设备,包括:硬件平台,包括处理器和存储器;和系统管理中断(SMI)处置器;第一逻辑,被配置为经硬件平台提供第一容器和第二容器;和第二逻辑,被配置为:检测第一容器中的不可校正错误;响应于检测,产生降级系统状态;将降级状态消息提供给所述SMI处置器;指令第二容器寻找可恢复状态;确定第二容器已进入可恢复状态;以及开始恢复操作。

【技术特征摘要】
2017.05.31 US 15/6100671.一种计算设备,包括:硬件平台,包括处理器和存储器;和系统管理中断(SMI)处置器;第一逻辑,被配置为经硬件平台提供第一容器和第二容器;和第二逻辑,被配置为:检测第一容器中的不可校正错误;响应于检测,产生降级系统状态;将降级状态消息提供给所述SMI处置器;指令第二容器寻找可恢复状态;确定第二容器已进入可恢复状态;以及开始恢复操作。2.如权利要求1所述的计算设备,其中所述第二逻辑还被配置为设置超时以及在超时期满之后开始所述恢复操作。3.如权利要求1所述的计算设备,还包括结构接口;其中所述第二逻辑还将降级通知提供给控制器。4.如权利要求3所述的计算设备,其中所述第二逻辑还请求所述控制器产生由第一容器提供的服务的新实例。5.如权利要求1所述的计算设备,其中所述可恢复状态包括第二容器可以在最小数据丢失的情况下被迁移的状态。6.如权利要求5所述的计算设备,其中所述第二逻辑还被配置为迁移第二容器。7.如权利要求1–6中任一项所述的计算设备,还包括:操作系统,所述操作系统还被配置为执行第一容器的核心转储。8.如权利要求7所述的计算设备,其中所述操作系统被配置为从所述处理器接收机器检查架构(MCA)记录信息。9.如权利要求7所述的计算设备,其中所述第二逻辑还被配置为向所述操作系统通知所述设备的降级状态。10.如权利要求1-6中任一项所述的计算设备,其中所述第二逻辑还包括配置接口,所述配置接口被配置为接收配置选项。11.一个或多个有形非暂态计算机可读介质,具有存储在其上的用于提供逻辑的指令,所述逻辑用于:提供系统管理中断(SMI)处置器;提供第一容器和第二容器;检测第一容器中的不可校正错误;响应于检测,产生降级系统状态;将降级状态消息提供给SMI处置器;指令第二容器寻找可恢复状态;确定第二容器已进入可恢复状态;以及开始恢复操作。12.如权利要求11所述的一个或多个有形非暂态计算机可读介质,其中所述逻辑...

【专利技术属性】
技术研发人员:S潘达S贾亚库马尔G波瓦尔T伊格梭
申请(专利权)人:英特尔公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1