【技术实现步骤摘要】
本专利技术属于硬件设备错误弹性评估,特别是一种基于指令语义增强的高性能计算设备错误弹性预测方法。
技术介绍
1、在现代高性能计算(hpc)系统中,图形处理单元因其强大的计算能力而被广泛部署。然而,随着应用程序体量的增加和工作电压的降低,计算元件中的故障发生率显著上升。这些故障可分为永久性故障或瞬态故障。永久性故障源于硬件组件中不可逆的更改,一直持续到实施直接的硬件干预来纠正它们。相反,瞬态故障,也称为软错误,主要是由电磁干扰引起的计算单元内的比特翻转。比特翻转故障会影响正在运行的hpc程序,并导致各种结果,如系统崩溃、运行超时等(这里的hpc程序是指在高性能计算设备上执行的任何程序,与程序语言无关)。最大的威胁是静默数据损坏(sdc),这严重破坏了数据完整性并产生了不正确的输出。此外,sdc不会导致系统崩溃或明显的错误消息,使其难以检测。
2、为了降低sdc的潜在风险,大多数可靠的系统采用保守的方案,如模块化冗余,不加选择地保护在硬件上执行的程序的每一部分,即使有些部分几乎从未触发sdc。这些方案的巨大开销对其效率和广泛采用
...【技术保护点】
1.一种基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤1中所述程序的汇编指令序列,包括程序运行过程中执行的所有静态汇编指令,以及每条指令的类型和寄存器的文本信息;每条指令的偏移地址,即每条指令在所属核函数内的相对地址。
3.根据权利要求1所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤2中基于NVBitFI进行单粒子翻转故障模拟,获取高性能计算设备故障点,每个故障点Fsite表示为:
< ...【技术特征摘要】
1.一种基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤1中所述程序的汇编指令序列,包括程序运行过程中执行的所有静态汇编指令,以及每条指令的类型和寄存器的文本信息;每条指令的偏移地址,即每条指令在所属核函数内的相对地址。
3.根据权利要求1所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤2中基于nvbitfi进行单粒子翻转故障模拟,获取高性能计算设备故障点,每个故障点fsite表示为:
4.根据权利要求3所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤2中每个故障点fsite通过独热方式对其三元组中的每个元素进行编码并将其连接起来,将每个故障点预编码为其中m是总编码维度;使用故障注入工具nvbitfi对故障点注入,获取故障点的错误弹性标签,构造高性能计算设备故障样本。
5.根据权利要求4所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤3所述从步骤1获取的高性能计算程序的汇编指令序列,通过调整具有大量指令序列语料库的大语言模型生成指令语义嵌入,从而封装目标高性能计算程序指令的语义,具体包括:
<...【专利技术属性】
技术研发人员:顾晶晶,俞鹏飞,史建伟,文宝,
申请(专利权)人:南京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。