【技术实现步骤摘要】
检查点调整的方法和装置
[0001]本申请涉及计算机领域,更具体地,涉及一种检查点调整的方法和装置。
技术介绍
[0002]在高性能计算机(HPC,High Performance Computer)中会有各种各样的错误发生,从而导致计算过程需要不断重启和恢复,这些错误既有软件层面的,也有硬件层面的,诸如,软件错误,包括应用错误、操作系统错误(诸如,内核错误(kernel panic))、通信库错误、文件系统错误等;硬件错误,包括硬盘损坏、处理器损坏、内存错误、网络错误等。
[0003]目前,用于解决HPC容错能力问题的方法为检查点方法,该方法通过保存执行的应用的中间状态,从而达到快速恢复应用执行过程的目的。现有的检查点方法包括基于中央处理器(CPU)的检查点方法、基于加速单元(诸如,图形处理器(GPU)、现场可编程门阵列(FPGA)等)的检查点方法等等。
[0004]这里,在计算过程中引入额外的加速单元,计算过程中必不可少的步骤为:将待处理数据从CPU复制到加速单元进行计算;计算完成后,将数据从加速单元复制 ...
【技术保护点】
【技术特征摘要】
1.一种检查点调整的方法,包括:监测加速单元执行应用时调用的应用编程接口API,确定当前的API执行循环;基于所述应用的API执行逻辑和当前的API执行循环,按照预先确定的检查点调整策略来确定下一个检查点,其中,所述预先确定的检查点调整策略包括:所述API执行逻辑中至少一个API执行循环对应的调整策略。2.如权利要求1所述的检查点调整的方法,其中,所述预先确定的检查点调整策略包括:至少基于加速单元执行的应用的API执行逻辑和初始检查点间隔,针对所述至少一个API执行循环确定的检查点调整策略,其中,所述至少一个API执行循环包括用于加速单元的数据复制的高负载API。3.如权利要求1所述的检查点调整的方法,其中,API执行逻辑包括加速单元执行所述应用时调用API的顺序和执行每个API所需的时间。4.如权利要求2所述的检查点调整的方法,其中,初始检查点间隔是基于平均失效前时间MTTF和检查点代价确定。5.如权利要求2所述的检查点调整的方法,其中,高负载API包括向加速单元复制数据的API和将数据复制出加速单元的API。6.如权利要求5所述的检查点调整的方法,其中,所述预先确定所述应用的检查点调整策略的步骤包括:通过施加所述初始检查点间隔预执行所述应用时,在第一检查点和第二检查点的时间段内,当所述时间段内的第一API执行循环包括的第一API的调用开始时刻与第二检查点之间的第一时间差不大于预定比率的初始检查点间隔,并且第二API不在初始检查点间隔内时,如果第一时间差小于第二检查点与第...
【专利技术属性】
技术研发人员:解锋涛,邓慧茹,魏露,邢彪,
申请(专利权)人:三星电子株式会社,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。