并行计算机及其控制方法技术

技术编号：15398178 阅读：129 留言：0更新日期：2017-05-22 13:52

公开了一种并行计算机及其控制方法。该并行计算机包括多个节点，并且当检测到在多个节点的每个中停止了用于作业的程序的执行时，多个节点中的一个节点从多个节点中的每个收集与障碍同步的进展状态有关的信息。而且，并行计算机中的多个节点中的一个节点基于在该一个节点中用于作业的程序的停止位置和从多个节点中的每个所收集的信息来确定在该一个节点中用于作业的程序的重新启动位置。

Parallel computer and control method thereof

A parallel computer and a control method thereof are disclosed. The parallel computer includes a plurality of nodes, and when detected stopped at each of a plurality of nodes for operation of the program execution, the information about the progress of the state synchronization of a plurality of nodes from multiple nodes in each collection and obstacles. Moreover, a plurality of nodes in a parallel computer system based on the one node for each stop position and from a plurality of nodes in the information collected was used to determine the position of restart operation procedures in the operation of a node in the program.

全部详细技术资料下载

【技术实现步骤摘要】
并行计算机及其控制方法相关申请的交叉引用本申请基于2012年11月27日提交的在先日本专利申请第2012-258186号，并且要求该在先日本专利申请的优先权的权益，该在先日本专利申请的全部内容通过引用并入于此。
本专利技术涉及一种用于控制并行计算机的技术。
技术介绍
已知障碍同步（barriersynchronization）是一种用于对由并行计算机中的多个计算节点所执行的处理进行同步的方法。在此，计算节点是并行计算机中执行计算处理的部分，并且计算节点包括作为处理器的中央处理器单元（CPU）或作为处理单元的处理器内核。通过由每个计算节点在用于作业（job）的程序中的预定位置处调用障碍函数（function）而使得障碍同步变为可能。例如，在使用消息传递接口（MPI）库的情况下，可以通过在用于作业的程序中调用MPI_Barrier函数来实现障碍同步。在并行计算机中的所有计算节点都确认完成障碍同步之前，计算节点中的每个不能使得用于作业的程序的执行前进。已知以下用于在并行计算机中执行用于作业的程序的技术。更具体地，在并行计算机中，基于对于共享存储器的访问历史来执行用于程序的再次执行的同步。在那之后，采用基于记录信息所再现的共享存储器和处理器状态信息、从检查点起再次执行程序。然而，未建立如下技术：在该技术中，在正执行障碍同步的并行计算机中，临时地停止作业，然后稍后重新启动该作业。当在障碍同步的执行期间停止作业时，存在如下可能性：作业重新启动之后将不会适当地执行障碍同步，因此将停止作业的前进。因此，当在障碍同步的执行期间存在来自用户的停止作业的指令时，存在如下问题：不...
并行计算机及其控制方法

【技术保护点】
一种由并行计算机中所包括的多个节点中的第一节点执行的控制方法，所述控制方法包括：当检测到在所述多个节点中的每个中停止了用于作业的程序的执行时，从所述多个节点中的每个收集表示是否传送了用于执行障碍同步的同步数据的信息和表示所述障碍同步的完成状态的序列号码；以及基于在所述第一节点中用于所述作业的所述程序的停止位置、从所述多个节点中的每个所收集的所述信息和所述序列号码，对在所述第一节点中用于所述作业的所述程序的重新启动位置进行第一确定。

【技术特征摘要】
2012.11.27 JP 2012-2581861.一种由并行计算机中所包括的多个节点中的第一节点执行的控制方法，所述控制方法包括：当检测到在所述多个节点中的每个中停止了用于作业的程序的执行时，从所述多个节点中的每个收集表示是否传送了用于执行障碍同步的同步数据的信息和表示所述障碍同步的完成状态的序列号码；以及基于在所述第一节点中用于所述作业的所述程序的停止位置、从所述多个节点中的每个所收集的所述信息和所述序列号码，对在所述第一节点中用于所述作业的所述程序的重新启动位置进行第一确定。2.根据权利要求1所述的控制方法，其中，所述第一确定包括：基于从所述多个节点中的每个所收集的所述信息和所述序列号码，对所述并行计算机的状态是否达到所述障碍同步不再前进的状态进行第二确定；以及当确定所述并行计算机的所述状态达到所述障碍同步不再前进的所述状态时，对所述程序的所述重新启动位置进行第三确定。3.根据权利要求2所述的控制方法，其中，所述第二确定包括：确定所述多个节点中的至少一个是否尚未结束传送用于所述障碍同步的同步数据，并且确定在所述多个节点中的每个中已经完成了所述障碍同步还是在所述多个节点的任一个中尚未完成所述障碍同步。4.根据权利要求1所述的控制方法，其中，所述第一确定包括：当检测到所述第一节点已经结束了传送用于所述障碍同步的同步数据并且所述第一节点等待接收来自除了所述第一节点之外的节点的所述同步数据...

【专利技术属性】
技术研发人员：井原宣孝，
申请(专利权)人：富士通株式会社，
类型：发明
国别省市：日本,JP

全部详细技术资料下载我是这个专利的主人