大规模异构并行计算的容错方法技术

技术编号：8323301 阅读：234 留言：0更新日期：2013-02-14 00:24

本发明专利技术提供了一种大规模异构并行计算的容错方法，包括：对每个时间步的每个核心计算模块，进行以下处理：将计算课题的计算数组的内容赋值给备份数组；完成核心计算模块的计算；其中，完成核心计算模块的计算包括：统计可用处理器核数，以获得第一处理器核数；可用处理器核并行运算核心计算模块；再次统计可用处理器核数，以获得第二处理器核数；比较第一处理器核数和第二处理器核数，若第二处理器核数小于第一处理器核数，则将备份数组的内容赋值给计算数组，并重新完成核心计算模块的计算，直至第一处理器核数与第二处理器核数一致。本发明专利技术的大规模异构并行计算容错方法能充分利用计算资源，减少故障恢复时间，提高并行计算的可靠性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机领域，尤其涉及一种。
技术介绍
大规模异构高性能计算机系统是未来极大规模并行计算的重要发展方向，与传统单核/多核处理器计算机系统相比，大规模异构高性能计算机系统以异构处理器为基础，处理器核数急剧增加，系统架构和访存方式发生重大变化。在大规模异构计算机系统环境下，如何保证大规模并行计算的可靠性和稳定性是关键问题，而并行算法级的容错机制和间断处理机制是关键技术之一。需要设计高效的算法级并行容错方法，以充分利用计算资源，减少故障恢复时间，提高并行计算的可靠性。目前，在并行算法级的容错机制和间断处理机制方面，主要应用领域的并行计算软件都设计和开发了大规模并行算法的任意可变并行规模的保留恢复功能，能够保证算法在MPI级(“消息传递接口'Message Passing Interface)的自动容错能力，但在众核并行层次上，因为GPU (“图形处理器”,GraphicProcessing Unit)、Cell处理器等架构的特殊性和复杂性，很少有应用程序考虑众核一级的容错功能实现，在计算过程中不能自动检测大规模异构计算机系统在处理器核层次的硬件故障，只能从最终的计算结果判断计算是否正常可靠，难以保证大规模异构并行计算的可靠性和稳定性。对于某些计算时间较长的中大规模众核并行课题而言，经常会出现课题运行挂起的情况，需要人工干预后重新提交。以航天飞行器全流域数值模拟应用领域为例，据目前可查文献，现有的异构众核并行只实现了中间计算结果的记录，即实现一般的保留恢复功能，没有考虑到众核级的容错功能实现，在计算过程中不能自动检测大规模异构计算机系统在处理器核层...

【技术保护点】
一种大规模异构并行计算的容错方法，适用于通过多个时间步迭代计算的并行计算课题，其中，每个时间步的迭代计算包括多个核心计算模块，其特征在于：对每个时间步的每个核心计算模块，进行以下处理：将所述计算课题的计算数组的内容赋值给所述计算数组的备份数组；完成核心计算模块的计算；其中，所述完成核心计算模块的计算包括：统计可用处理器核数，以获得第一处理器核数；所述可用处理器核并行运算所述核心计算模块；再次统计可用处理器核数，以获得第二处理器核数；比较所述第一处理器核数和所述第二处理器核数，若所述第二处理器核数小于所述第一处理器核数，则将所述备份数组的内容赋值给所述计算数组，并重新完成核心计算模块的计算，直至所述第一处理器核数与所述第二处理器核数一致。

【技术特征摘要】
1.一种大规模异构并行计算的容错方法，适用于通过多个时间步迭代计算的并行计算课题，其中，每个时间步的迭代计算包括多个核心计算模块，其特征在于对每个时间步的每个核心计算模块，进行以下处理将所述计算课题的计算数组的内容赋值给所述计算数组的备份数组；完成核心计算模块的计算；其中，所述完成核心计算模块的计算包括统计可用处理器核数，以获得第一处理器核数；所述可用处理器核并行运算所述核心计算模块；再次统计可用处理器核数，以获得第二处理器核数；比较所述第一处理器核数和所述第二处理器核数，若所述第二处理器核数小于所述第一处理器核数，则将所述备份数组的内容赋值给所述计算数组，并重新完成核心计算模块的计算，直至所述第一处理器核数与所述第二处理器核数一致。2.如权利要求I所述的大规模异构并行计算的容错方法，其特征在于，在开始每个时间步的迭代计算之前，还包括申请所述计算数组的备份数组。3.如权利要求I或2所述的任一种大规模异构并行计算的容错方法，其特征在于，在所述统计可用处理器核数，以获得第一处理器核数之后，还包括按照所述第一处理器核数进行众核任务分解。4.如权利要求3所述的大规模异...

【专利技术属性】
技术研发人员：陈德训，刘鑫，李芳，徐金秀，
申请(专利权)人：无锡江南计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人