高性能计算机系统中不满足计算精度要求的结点检测方法技术方案

技术编号:7700355 阅读:683 留言:0更新日期:2012-08-23 05:25
本发明专利技术公开了一种高性能计算机系统中不满足计算精度要求的问题结点检测方法。技术方案是先选择基准测试程序并在高性能计算机全系统2n个计算结点上运行,如果计算精度达不到预定的要求,将高性能计算系统分成两个部分,分别加载基准测试程序,如果计算结点数目减半的并行程序计算结果仍不满足计算精度要求,则再将计算结点的数目减半,直到均满足计算精度要求,或者每个部分只剩下一个计算结点。若计算结点数为1但仍不满足计算精度要求,则说明已经找到不满足计算精度要求的计算结点。采用本发明专利技术可以对计算精度不满足要求的计算结点实现自动检测,定位问题结点,保证大规模高性能计算机系统的可用性。

【技术实现步骤摘要】

本专利技术涉及ー种高性能计算机系统中不满足计算精度要求的问题结点检测方法,尤指基于并行程序的加载运行,能够快速定位不能满足用户计算精度问题要求的计算结点的检测方法。
技术介绍
高性能计算机系统计算精度问题指用户并行应用程序在高性能计算机系统上的计算精度不能满足用户需求的问题,是由于少数计算结点的计算精度错误或结点间的连接引起的问题。高性能计算机系统结构复杂,计算精度涉及用户程序运行结果的可信度,是用户首先关心的问题。计算精度既涉及单机运算,也涉及多机协同计算;既和计算结点相关,也和通信网络相关;既需要MPI (Message Passing Interface)并行环境,也需要OpenMP共享计算环境或CUDA (Compute Unified Device Architecture)等其他并行计算环境;既要考虑串行编译器的影响,又要考虑MPI、0penMP和CUDA等并行编译的影响;既涉及本地多级存储结构,又涉及远地存储结构。计算结果的精度对高性能计算机系统是否具有可用性至关重要。目前对计算精度的研究主要集中在提高计算精度的方法,如顶层设计提高计算精度方法,为避免舍入误差造成模拟计算的不可靠性,从应用软件角度必须研究高精度偏微分离散格式和求解方法,尽量減少截断误差,并从程序设计角度对算术运算精度要求敏感的核心部分考虑采用高于64位的浮点运算,从系统研制角度则必须考虑对超64位字长的算木运算的支持。从应用和系统设计着手提高计算精度,如果系统出现互连网络等系统级错误时,得到错误的计算结果,无法定位出现错误的计算结点。对高性能计算机系统的精度是否满足用户要求,主要采用计算精度对比法和国际基准程序测试法(I)计算精度对比法。使用基于用户需求研制的核心算法并行程序、测试程序和典型应用程序在国内国外已投入运行的高性能计算机系统上运行,保存计算結果,在被测试的系统上使用同等规模的问题进行计算,然后进行计算结果比对,具有相同的有效数字,就认为计算结果正确。目前要测试的高性能计算机系统可能远大于已投入运行的系统,所计算的问题可能在已投入运行的机器上无法运行,得不到可供參考的计算結果。(2)国际基准程序测试法。选择国际上的基准测试程序对高性能计算机系统的计算精度进行测试,基准测试程序中有标准的计算结果,测试完成后会自动报告是否成功,如果成功说明计算结果正确。该方法可以知道计算结果的正确性,但不知道哪些计算结点造成计算结果不正确,无法定位出错误的计算结点。上述方法只能告诉用户高性能计算机系统是否满足用户的需求,不能实现自动检测功能,目前国际上还缺乏将计算精度有问题的计算结点自动检测出来的方法。如何能够既告诉用户高性能计算机系统的精度是否满足用户的要求,又对计算精度不满足要求的计算结点进行自动检测是本领域技术人员极为关注的技术问题
技术实现思路
本专利技术要解决的技术问题在于提出一种,使用并行程序加载运行,自动定位不能满足计算精度要求的少数计算结点。为了解决上述技术问题,本专利技术的技术方案为根据高性能计算机系统的并行计算环境,采用覆盖MPI、OpenMP和加速器的基准测试程序,加载运行基准测试程序,自动检测计算精度问题,定位不满足计算精度要求的计算结点。假设高性能计算机系统计算结点的总数目为2n,n为正整数,在高性能计算机系统2n个计算结点上加载基准测试程序,如果计算精度达不到预定的要求,将高性能计算系统分成两个部分,每个部分结点数目均为2n'分别加载基准测试程序,如果计算结点数目减半的并行程序计算结果仍不满足计算精度要求,则再将计算结点的数目减半,直到均满足计算精度要求,或者每个部分只剩下一个计算结点。若计算结点数为I但仍不满足计算精度要求,则说明已经找到不满足计算精度要求的计算结点。将不满足计算精度要求的结点集合(结点数大于等于2,小于等于211-1)分成两个部分,对于这两个部分均满足计算精度要求的情况,当结点数为211-1时,在两个部分结点集合中随机选择数目相等的结点进行互换,在两个结点集合上分别加载基准测试程序,直到有一个部分结点集合不满足计算精度要求为止,并将此时满足精度要求的结点集合标记为正常结点;当结点数2m小于211-1时,从标记为正常的计算结点中任取2m个结点,分别在正常结点和部分结点组成的结点集合上加载程序,如果满足计算精度要求,则将参与计算的部分结点标记为正常结点,对不满足计算精度要求的部分结点一分为二,重复上述过程。具体技术方案为第一步选择基准测试程序,要求基准测试程序覆盖MPI、OpenMP和CUDA计算资源,有标准计算结果,初始化结点集合H为空集。第二步高性能计算机系统提供MPI、OpenMP和CUDA计算资源环境,有2n个计算结点,在高性能计算机全系统2n个计算结点上运行基准测试程序,n为正整数。将在高性能计算机系统上运行的计算结果和标准计算结果进行对比,若计算结果和标准结果一致,则满足计算精度要求,所有计算结点标记为正常,转第八步。否则说明计算精度达不到预定要求,将达不到预定要求的高性能计算系统结点放到结点集合H中,转第三步。第三步将计算精度达不到预定要求的高性能计算系统结点集合H —分为二,分别记为集合Hl和H2,Hl和H2的计算结点数相等,转第四步。第四步在Hl和H2组成的计算机系统上分别加载基准测试程序,分为以下几种情况处理4. I若并行程序在Hl和H2组成的计算机系统上的计算结果均和标准结果一致,转第五步;4. 2当并行程序在Hl组成的计算机系统上的计算结果和标准结果一致时,将Hl标记为正常结点,转第八步;当并行程序在Hl组成的计算机系统上的计算结果和标准结果不一致时,若Hl结点数目不为I,转第三步,若Hl结点数为I,将Hl中的计算结点标记为问题结点,转第八步;4. 3当并行程序在H2组成的计算机系统上的计算结果和标准结果一致时,将H2标记为正常结点,转第八步;当并行程序在H2组成的计算机系统上的计算结果和标准结果不一致时,若H2结点数目不为I,转第三步,若H2结点数为I,将H2中的计算结点标记为问题结点,转第八步;第五步将Hl和H2的计算结点数记为2m,I彡m彡n_l,分为两种情况处理5. I当结点数2m等于2114时,分别在Hl和H2随机选择数目相等的结点进行互换,转第四步;5. 2当结点数2m不等于2114时,从标记为正常的计算结点中任取2m个结点组成集合H3。Hl和H3相合并构成测试集合H13,H2和H3相合并构成测试集合H23。在H13和H2 3组成的计算机系统上分别加载基准测试程序,如果Hl和H2的结点数2m大于I,转第六步,如果Hl和H2的结点数2m等于I,转第七步;第六步分为以下四种情况处理6. I并行程序在H13组成的计算机系统上计算结果和标准结果一致,将Hl中的计算结点标记为正常结点,转第八步;6. 2并行程序在H13组成的计算机系统上计算结果和标准结果不一致,将Hl —分为二,两个部分还分别记为Hl和H2,Hl和H2的计算结点数相等,转第5. 2步;6. 3并行程序在H23组成的计算机系统上计算结果和标准结果一致,将H2中的计算结点标记为正常结点,转第八步;6. 4并行程序在H23组成的计算机系统上计算结果和标准结果不一致,将H2 —分为二,两个部分还本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1. ー种高性能计算机系统中不满足计算精度要求的结点检测方法,其特征在于包括以下步骤 第一歩选择基准测试程序,要求基准测试程序有标准计算结果,初始化结点集合H为空集; 第二步在高性能计算机全系统2个计算结点上运行基准测试程序,η为正整数,将在高性能计算机系统上运行的计算结果和标准计算结果进行对比,若计算结果和标准结果ー致,则满足计算精度要求,所有计算结点标记为正常,转第八歩;否则说明计算精度达不到预定要求,将达不到预定要求的高性能计算系统结点放到结点集合H中,转第三歩; 第三步将计算精度达不到预定要求的高性能计算系统结点集合H —分为ニ,分别记为集合Hl和Η2,Hl和Η2的计算结点数相等,转第四步; 第四歩在Hl和Η2组成的计算机系统上分別加载基准测试程序,分为以下几种情况处理 、4. I若并行程序在Hl和Η2组成的计算机系统上的计算结果均和标准结果一致,转第五I K少; 、 4. 2当并行程序在Hl组成的计算机系统上的计算结果和标准结果一致吋,将Hl标记为正常结点,转第八步;当并行程序在Hl组成的计算机系统上的计算结果和标准结果不一致时,若Hl结点数目不为I,转第三步,若Hl结点数为I,将Hl中的计算结点标记为问题结点,转第八歩; 、4.3当并行程序在Η2组成的计算机系统上的计算结果和标准结果一致吋,将Η2标记为正常结点,转第八步;当并行程序在Η2组成的计算机系统上的计算结果和标准结果不一致时,若Η2结点数目不为I,转第三步,若Η2结点数为I,将Η2中的计算结点标记为问题结点,转第八歩; 第五步将Hl和Η2的计算结点数记为2m,I彡m彡n_l,分为两种情况处理 、5.I当结点数2m等于21^1吋,分别在Hl和H2随机选择数目相等的结点进行互換,转第四步; 、 5.2当结点数2m不等于2...

【专利技术属性】
技术研发人员:刘杰迟利华胡庆丰徐涵晏益慧龚春叶杨博赵文闻
申请(专利权)人:中国人民解放军国防科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1