分散存储型多处理机系统及故障恢复方法技术方案

技术编号：2890189 阅读：160 留言：0更新日期：2012-04-11 18:40

在经由通信开关１０连接节点１，２，…，Ｎ，经由通信开关１０进行节点间通信的系统中，节点具有为了使故障发生时的再执行成为可能。在某时刻取得关于自节点的检查点，在故障发生时从前面取得的检查点再次开始数据处理的功能，抑制对于经由通信开关１０的其它节点的数据发送，在通信开关１０中不存在发送中的数据的状态下，和其它所有节点同步地进行开始基于该功能的检查点的获取。（*该技术在2017年保护过期，可自由使用*）

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大规模科学技术计算和数据库处理等中所用的分散存储型多处理机系统，特别地，涉及系统总体高可靠化的分散存储型多处理机系统。作为使计算机高度可靠的技术之一，有检查点/重新运行方式，例如，作为使计算机网络中使用的服务计算机高可靠化的技术而采用。图26是示出检查点/重新运行方式的计算机的动作基本原理的概念图。检查点/重新运行方式的计算机中，在通常的数据处理的空闲时间，一般定期地取得检查点。在这里所说的检查点是能够再起动状态的点。而且，如果硬件(HW)发生故障时，例如，在复位发生故障的HW机器等除去故障原因的基础上，在最终取得的检查点上重新运行系统，然后使系统再次起动。这就是检查点/重新运行方式的计算机的基本原理。与把计算机完全初始化相比，具有几乎不存在服务中断的优点。但是，用高速信道连接众多节点，使得在各计算机中分散进行大规模科学技术计算和数据库处理的分散存储型多处理机系统正在普及。这种系统中，节点数可有几百-几千个，如果在某个节点发生故障，就需要停止整个系统从系统的初始化开始修复，或者暂时不能使用例如故障节点担负的功能。分散存储型多处理机系统总体的可靠性(运转率)若假定某节点的故障不对其它节点的可靠性带来影响。则以各节点的可靠性(运转率)之积表示。例如，取各节点的运转率为99.99％，节点数为1024，则系统的运转率为90.27％，若增加节点数，则总体的可靠性(运转率)的恶化将不可忽视。于是，作为使分散存储型多处理机系统的可靠性(运转率)提高的方法之一，考虑作为各节点使用检查点/重新运行方式的计算机，提高各节点的可靠性(运转率)。例如，若取各节...

【技术保护点】
一种分散存储型多处理器系统，在经由信道连接了２个以上至少包含处理器和主存储含器的节点并且经由上述信道进行节点间通信的分散存储型多处理器系统中，特征在于：上述节点为了能够在故障发生时进行再次执行，具有在某时刻取得对于自节点的检查点，在发生故障时从前面取得的检查点再次开始数据处理的功能；上述节点的每一个都对应于树构造的某个节点，对于具有基于该对应的关系的节点，进行用于取得开始检查点获取的同步的数据发送；检测出应该开始检查点获取的节点向母节点发送上述检查点获取开始请求；从子节点接收到上述检查点获取开始请求的节点向母节点发送上述检查点获取开始请求，由此，依次地发送上述检查点获取开始请求，直到根节点；从子节点接收到上述检查点获取开始请求的根节点对所有子节点发送检查点获取指令。从母节点接收到上述检查点获取指令的节点向子节点发送上述检查点获取指令，由此，对所有节点传送了检查点获取指令，在所有的节点取得开始检查点获取的同步。

【技术特征摘要】
...

【专利技术属性】
技术研发人员：平山秀昭，酒井浩，
申请(专利权)人：株式会社东芝，
类型：发明
国别省市：JP[日本]

全部详细技术资料下载我是这个专利的主人