低时延集群计算制造技术

技术编号：10390830 阅读：80 留言：0更新日期：2014-09-05 16:19

实施例包括用于对分布式应用执行检查点的低时延机制。更具体地，本发明专利技术的实施例包括在集群中所包含的计算节点上执行第一应用，以产生第一计算数据，然后将第一计算数据存储在计算节点本地包含的易失性存储器中；基于启动的检查点，暂停第一应用的处理，并且将与暂停的第一应用对应的第一状态数据存储在易失性存储器中；将第一状态信息和第一计算数据存储在计算节点本地包含的非易失性存储器中；以及恢复处理所述暂停的第一应用，然后继续处理第一应用以产生第二计算数据，同时将第一状态信息和第一计算数据从非易失性存储器拉出到输入/输出(IO)节点。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】低时延集群计算
技术介绍
高性能计算(HPC)和集群计算涉及到连接各计算节点以形成能够解决复杂问题的分布式系统。这些节点可以是单个的台式计算机、服务器、处理器或能够托管单个计算实例的类似机器。更具体地，这些节点是由包括但不限于处理器、易失性存储器(RAM)、磁存储驱动器、主板、网络接口卡等硬件部件构成的。可扩展的HPC应用需要检查点能力。在分布式共享存储器系统中，检查点是一种帮助容忍导致失去长期运行的应用的工作效力的错误的技术。检查点技术有助于在故障的情况下保持系统一致性。随着集群尺寸增长，故障之间的平均时间减小，这需要应用来创建更频繁的检查点。这驱动了对于快速检查点能力的需求。【附图说明】通过随附的权利要求书、一个或多个示例性实施例的如下详细说明以及对应的附图，本专利技术的实施例的多个特征和优点将变得清晰，在附图中:图1包括本专利技术的实施例中的用于HPC的集群的示意图。图2包括本专利技术的实施例中的计算节点的示意图。图3包括本专利技术的实施例中的计算节点的易失性存储器的框图。图4-5包括本专利技术的实施例中的检查点处理的第一阶段的流程图。图6-7包括本专利技术的实施例中的检查点处理的第二阶段的流程图。【具体实施方式】在下面的说明中，阐述了多方面具体的细节，但是本专利技术的实施例可以在不具有这些具体细节的情况下实施。为避免使对本说明书的理解模糊，未详细示出公知的电路、结构和技术。“实施例”、“各个实施例”等表示如此描述的实施例可以包括特定的特征、结构或特点，但是不是每一个实施例必然包括该所述特定的特征、结构或特点。一些实施例可以具有针对其他实施例所描述的特...
低时延集群计算

【技术保护点】
一种方法，包括：在包含于集群中的计算节点上处理第一应用，以产生第一计算数据，然后将所述第一计算数据存储在所述计算节点中本地包含的易失性存储器中；基于启动的检查点来暂停所述第一应用的处理；将所述第一计算数据和与暂停的第一应用对应的第一状态数据存储在所述计算节点本地包含的非易失性存储器中；以及恢复所述暂停的第一应用的处理，然后继续处理所述第一应用以产生第二计算数据，同时将第一状态信息和所述第一计算数据从所述非易失性存储器拉出到输入/输出(IO)节点。

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括: 在包含于集群中的计算节点上处理第一应用，以产生第一计算数据，然后将所述第一计算数据存储在所述计算节点中本地包含的易失性存储器中；基于启动的检查点来暂停所述第一应用的处理；将所述第一计算数据和与暂停的第一应用对应的第一状态数据存储在所述计算节点本地包含的非易失性存储器中；以及恢复所述暂停的第一应用的处理，然后继续处理所述第一应用以产生第二计算数据，同时将第一状态信息和所述第一计算数据从所述非易失性存储器拉出到输入/输出(IO)节点。2.如权利要求1所述的方法，包括:利用所述易失性存储器的直接存储器存取(DMA)将所述第一状态信息和所述第一计算数据中的一个存储在所述非易失性存储器中。3.如权利要求2所述的方法，包括: 将所述第二计算数据存储在所述易失性存储器中；以及利用所述计算节点所包含的至少一个处理器而不利用所述易失性存储器的DMA，将所述第二计算数据存储在所述非易失性存储器中。4.如权利要求3所述的方法，包括: 判定对所述易失性存储器的未决的存取请求的数量满足阈值；以及基于判定所述未决的存取请求的数量满足所述阈值，利用所述处理器将所述第二计算数据存储在所述非易失性存储器中。5.如权利要求1所述的方法，包括: 将所述第一计算数据存储在所述易失性存储器的第一部分中；在所述计算节点上处理所述第一应用以产生第三计算数据，然后将所述第三计算数据存储在所述易失性存储器的第三部分中，所述第三部分与所述第一部分不重叠；利用所述易失性存储器的直接存储器存取(DMA)将所述第一计算数据存储在所述非易失性存储器中，同时利用所述计算节点中所包含的至少一个处理器而不利用所述易失性存储器的DMA将所述第三计算数据存储在所述非易失性存储器中。6.如权利要求1所述的方法，包括:利用远程直接存储器存取(RDMA)将所述第一状态信息和所述第一计算数据从所述非易失性存储器拉出到所述IO节点。7.如权利要求1所述的方法，包括:将所述第一计算数据存储在所述易失性存储器的第一区段中，以及将所述第二计算数据存储在所述易失性存储器的第二区段中。8.如权利要求7所述的方法，包括:将所述第二计算数据存储在所述易失性存储器的所述第二区段中，同时将所述第一计算数据存储在所述非易失性存储器中。9.如权利要求7所述的方法，包括:为所述第一应用保留所述易失性存储器的所述第一区段和第二区段。10.如权利要求1所述的方法，其中将所述第一状态信息和所述第一计算数据从所述非易失性存储器拉出到所述IO节点包括:所述IO节点读取所述第一状态信息和所述第一计算数据。11.如权利要求1所述的方法，包括:经由写操作，将所述第一状态信息和所述第一计算数据从所述IO节点推入到非易失性存储阵列，同时处理所述第一应用。12.如权利要求1所述的方法，包括:在所述第一应用的处理暂停的同时，将所述第一状态信息和所述第一计算数据存储在所述非易失性存储器中。13.驻留于一个或多个存储介质中的指令集，所述指令集由至少一个处理器执行以实现如权利要求1至12所述的方法。14.一种系统,包括: 计算节点，其包含在集群中；在所述计算节点中本地包含的易失性存储器和非易失性存储器；以及其...

【专利技术属性】
技术研发人员：M·S·赫夫蒂，A·戴维斯，R·伍德拉夫，S·苏尔，SW·程，
申请(专利权)人：英特尔公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人