基于指令语义增强的高性能计算设备错误弹性预测方法技术

技术编号:44698918 阅读:29 留言:0更新日期:2025-03-19 20:49
本发明专利技术公开了一种基于指令语义增强的高性能计算设备错误弹性预测方法,包括:获取高性能计算程序的汇编指令序列与偏移地址信息;进行单粒子翻转故障模拟,获取少量高性能计算设备故障样本;生成指令语义嵌入,从而封装目标高性能计算程序指令的语义;分析指令之间的控制执行和数据依赖关系,构建两个指令拓扑图,并利用图神经网络对此建模,提取错误传播模式;将从不同图中提取的故障嵌入相结合进行错误弹性预测。本发明专利技术对高性能计算程序进行指令语义表征,可以更好地理解高性能计算程序的弹性特点,通过建模高性能计算程序在比特级别的错误传播,无需大量故障模拟,实现了准确的错误弹性预测,极大地节省了计算资源与开销,并且可以灵活适用于高性能计算设备上运行的各种高性能计算程序。

【技术实现步骤摘要】

本专利技术属于硬件设备错误弹性评估,特别是一种基于指令语义增强的高性能计算设备错误弹性预测方法


技术介绍

1、在现代高性能计算(hpc)系统中,图形处理单元因其强大的计算能力而被广泛部署。然而,随着应用程序体量的增加和工作电压的降低,计算元件中的故障发生率显著上升。这些故障可分为永久性故障或瞬态故障。永久性故障源于硬件组件中不可逆的更改,一直持续到实施直接的硬件干预来纠正它们。相反,瞬态故障,也称为软错误,主要是由电磁干扰引起的计算单元内的比特翻转。比特翻转故障会影响正在运行的hpc程序,并导致各种结果,如系统崩溃、运行超时等(这里的hpc程序是指在高性能计算设备上执行的任何程序,与程序语言无关)。最大的威胁是静默数据损坏(sdc),这严重破坏了数据完整性并产生了不正确的输出。此外,sdc不会导致系统崩溃或明显的错误消息,使其难以检测。

2、为了降低sdc的潜在风险,大多数可靠的系统采用保守的方案,如模块化冗余,不加选择地保护在硬件上执行的程序的每一部分,即使有些部分几乎从未触发sdc。这些方案的巨大开销对其效率和广泛采用构成了重大挑战,特别本文档来自技高网...

【技术保护点】

1.一种基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤1中所述程序的汇编指令序列,包括程序运行过程中执行的所有静态汇编指令,以及每条指令的类型和寄存器的文本信息;每条指令的偏移地址,即每条指令在所属核函数内的相对地址。

3.根据权利要求1所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤2中基于NVBitFI进行单粒子翻转故障模拟,获取高性能计算设备故障点,每个故障点Fsite表示为:

<p>4.根据权利要求...

【技术特征摘要】

1.一种基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤1中所述程序的汇编指令序列,包括程序运行过程中执行的所有静态汇编指令,以及每条指令的类型和寄存器的文本信息;每条指令的偏移地址,即每条指令在所属核函数内的相对地址。

3.根据权利要求1所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤2中基于nvbitfi进行单粒子翻转故障模拟,获取高性能计算设备故障点,每个故障点fsite表示为:

4.根据权利要求3所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤2中每个故障点fsite通过独热方式对其三元组中的每个元素进行编码并将其连接起来,将每个故障点预编码为其中m是总编码维度;使用故障注入工具nvbitfi对故障点注入,获取故障点的错误弹性标签,构造高性能计算设备故障样本。

5.根据权利要求4所述的基于指令语义增强的高性能计算设备错误弹性预测方法,其特征在于,步骤3所述从步骤1获取的高性能计算程序的汇编指令序列,通过调整具有大量指令序列语料库的大语言模型生成指令语义嵌入,从而封装目标高性能计算程序指令的语义,具体包括:

<...

【专利技术属性】
技术研发人员:顾晶晶俞鹏飞史建伟文宝
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1