适应CPU、GPU异构集群的级联容错处理方法技术

技术编号:16873604 阅读:36 留言:0更新日期:2017-12-23 11:36
本公开是关于一种适应CPU、GPU异构集群的级联容错处理方法。包括:构建数据传输一致性检测模型,用于检测数据传输的一致性,构建数据访问一致性模型,用于实现CPU和GPU之间数据访问的一致性,构建数据运算结果正确性检测模型,用于检测线程数据运算结果的正确性,在应用层构建服务备份模型,用于备份服务运行的历史记录,在系统层构建服务作业信息备份模型,用于备份服务运行的作业信息。由此能够在GPU、CPU异构集群发生非物理损坏故障时,为业务人员快速定位服务故障位置,提取故障前状态,快速复位服务,减少损失。

Cascaded fault-tolerant processing methods adapted to CPU and GPU heterogeneous clusters

This disclosure is about a cascading fault tolerant processing method adapted to CPU and GPU heterogeneous clusters. Including: the construction of data transmission consistency detection model, for consistency checking of data transmission, build data access consistency model, is used to realize the consistency of data access between CPU and GPU, the construction result correctness of detection model for detection of thread data calculation results, construct the service backup model in application layer and for backup service operation history, construct the service operation information backup model in the system layer, for job information backup service operation. Thus, when GPU or CPU heterogeneous cluster occurs non physical damage failure, it can quickly locate service fault location for business personnel, extract pre fault state, quickly reset service, and reduce losses.

【技术实现步骤摘要】
适应CPU、GPU异构集群的级联容错处理方法
本公开涉及计算机
,尤其涉及一种适应CPU、GPU异构集群的级联容错处理方法。
技术介绍
自第一台计算机诞生以来,计算机技术发展日新月异,从个人计算机(PersonalComputer)到超级计算机(SuperComputer),形态各异。人类对计算的需求是无止境的,为满足人类对计算能力的需求,生产出的计算机的速度越来越快,2016年,我国研制的“太湖之光”、“天河二号”超级计算机首次占据了世界超级计算机排名的第一和第二名,运行能力首次达到100Pbit(petabit,千兆比特)量级,体现了我们国家的综合能力。但同时,超级计算能力伴随的是超级复杂和庞大的计算机体系结构,如“天河二号”的主要计算能力是由GPU(GraphicsProcessingUnit,图形处理器)提供的,在规模上,处理器数量达到万级。处理器数量的增多和体系结构的越来越复杂,使得系统出现故障的几率随之增加,同时,运行在这些高性能计算装备上的应用服务时间又很长,如模拟仿真、求解密码问题的运行时间以天甚至以年为单位,这就使得高性能计算装备容错问题更加突出,如何设计高效本文档来自技高网...
适应CPU、GPU异构集群的级联容错处理方法

【技术保护点】
一种适应CPU、GPU异构集群的级联容错处理方法,其特征在于,所述方法包括:构建数据传输一致性检测模型,用于检测数据传输的一致性;构建数据访问一致性模型,用于实现CPU和GPU之间数据访问的一致性;构建数据运算结果正确性检测模型,用于检测线程数据运算结果的正确性;在应用层构建服务备份模型,用于备份服务运行的历史记录;在系统层构建服务作业信息备份模型,用于备份服务运行的作业信息。

【技术特征摘要】
1.一种适应CPU、GPU异构集群的级联容错处理方法,其特征在于,所述方法包括:构建数据传输一致性检测模型,用于检测数据传输的一致性;构建数据访问一致性模型,用于实现CPU和GPU之间数据访问的一致性;构建数据运算结果正确性检测模型,用于检测线程数据运算结果的正确性;在应用层构建服务备份模型,用于备份服务运行的历史记录;在系统层构建服务作业信息备份模型,用于备份服务运行的作业信息。2.根据权利要求1所述的方法,其特征在于,所述构建数据传输一致性检测模型包括:检测传输前数据和传输后数据信息的一致性;检测传输前数据和传输后数据校验值的一致性,其中,通过相同的哈希函数确定传输前数据的校验值和传输后数据的校验值;在所述传输前数据和传输后数据信息一致,且所述传输前数据和传输后数据校验值一致的情况下,确定所述数据传输具有一致性。3.根据权利要求1所述的方法,其特征在于,所述构建数据访问一致性模型包括:将计算任务映射为多个可并行执行的线程,其中,所述多个可并行执行的线程形成各个线程块;通过共享存储器技术、线程同步栅栏技术和原子操作技术相结合,实现线程块内线程数据一致性。4.根据权利要求1所述的方法,其特征在于,所述构建数据运算结果正确性检测模型包括:将同一运算任务分配给三个规模相同、执行位置互不相同的运算模块分别运算,并分别得到三个运算结果;在所述三个运算结果均相等的情况下,确定所述运算结果为正确的运算结果;在所述三个运算结果中任意两个运算结果相等的情况下,确定所述相等的运算结果为正确的运算结果;在所述三个运算结果均不相等的情况下,重新执行运算任务。5.根据权利要求1所述的方法,...

【专利技术属性】
技术研发人员:姜海王忠儒李海磊
申请(专利权)人:北京丁牛科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1