一种芯粒故障诊断方法和装置制造方法及图纸

技术编号:37985483 阅读:6 留言:0更新日期:2023-06-30 10:00
本发明专利技术提供了一种芯粒故障诊断方法和装置,涉及计算机技术芯片领域。该方法包括:获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;根据运行数据集,确定至少一个工作模式;在当前运行总时长内,确定各芯粒在每个工作模式下的运行时长和特征参数;根据各芯粒在每个工作模式下的运行时长和特征参数,确定目标芯片中的各芯粒的故障概率;对故障概率大于预设阈值的目标芯粒进行故障诊断。本方案能有效预测并精准诊断故障芯粒。能有效预测并精准诊断故障芯粒。能有效预测并精准诊断故障芯粒。

【技术实现步骤摘要】
一种芯粒故障诊断方法和装置


[0001]本专利技术涉及计算机芯片
,特别涉及一种芯粒故障诊断方法和装置。

技术介绍

[0002]目前的高性能计算芯片架构,由于考虑成本和扩展性而广泛使用了芯粒架构方式。根据不同芯片的性能需求,将多个裸芯片(即芯粒)封装到一起,再通过高速总线链接和扩展,组成性能不同的芯片。然而在基于芯粒架构得到的芯片封装后,其内会因芯粒间连接故障或运输中发生碰撞甚至长期运行损耗而导致一个或多个芯粒故障。同时现有故障检测方法在发现多芯粒芯片故障后,常将封装后的该芯片进行整体废弃,难以事先预测可能发生故障的具体芯粒以及精准诊断故障芯粒。

技术实现思路

[0003]本专利技术提供了一种芯粒故障诊断方法和装置,该方法能有效预测并精准诊断故障芯粒。
[0004]第一方面,本专利技术实施例提供了一种芯粒故障诊断方法,包括:获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;根据所述运行数据集,确定至少一个工作模式;在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒的故障概率;对所述故障概率大于预设阈值的目标芯粒进行故障诊断。
[0005]可选地,所述根据所述运行数据集,确定至少一个工作模式,包括:对所述运行数据集进行第一特征提取,得到运行特征信息;其中,所述运行特征信息包括所述目标芯片的所触发的硬件事件集合;对所述运行特征信息进行分类,得到对应不同运行特征信息的不同工作模式。
[0006]可选地,所述在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数,包括:根据所述运行数据集,确定每个所述工作模式的运行时长;对所述运行数据集进行第二特征提取,得到每个所述工作模式下的特征参数;其中,所述特征参数包括所述目标芯片的温度、各芯粒的供电电压、工作频率;针对每个芯粒,统计该芯粒在每个所述工作模式下的运行时长。
[0007]可选地,所述确定所述目标芯片中的各芯粒的故障概率,包括:针对每个所述芯粒,根据该芯粒在每个所述工作模式下的特征参数和运行时长,确定该芯粒的故障评分,并基于预设规则和所述故障评分,确定该芯粒的故障概率;所述故障评分通过如下公式确定:
其中,M
i
用于表征第i个芯粒的故障评分;j用于表征第j个工作模式;n用于表征所述工作模式的总个数;t
i,j
用于表征第i个芯粒在第j个工作模式下的运行时长;f
i,j
用于表征第i个芯粒在第j个工作模式下的工作频率;V
i,j
用于表征第i个芯粒在第j个工作模式下的供电电压;I
i
用于表征第i个芯粒的漏电流;P
ei
用于表征第i个芯粒的标定功率;T
j
用于表征所述目标芯片在第j个工作模式下的温度;T
p
用于表征所述目标芯片的安全运行温度;α、β分别用于表征分值系数。
[0008]可选地,所述预设规则为所述故障评分与所述故障概率呈正相关。
[0009]可选地,所述对所述故障概率大于预设阈值的目标芯粒进行故障诊断,包括:针对所述故障概率大于预设阈值的目标芯粒,确定所述目标芯粒所单独触发的硬件事件;对所述目标芯粒进行隔离,并利用所述目标芯粒运行所述硬件事件;判断所述目标芯粒是否能运行所述硬件事件;若所述判断结果为否,则确定所述目标芯粒故障;若所述判断结果为是,获取运行所述硬件事件得到的待诊断运行数据,并判断所述待诊断运行数据是否存在异常;在该判断结果为是时,确定所述目标芯粒故障。
[0010]可选地,在所述确定所述目标芯片中的各芯粒的故障概率之前,还包括:在所述当前运行总时长内,判断所述目标芯片中各芯粒是否经历过更换;若是,则更新该芯粒的首次使用日期,并重新对当前日期与该首次使用日期进行差值运算,计算得到该芯粒在更换后的二次运行总时长,以在所述二次运行总时长内确定该芯粒的故障概率。
[0011]第二方面,本专利技术实施例还提供了一种芯粒故障诊断装置,包括:获取模块,用于获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;预处理模块,用于根据所述运行数据集,确定至少一个工作模式,并在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;故障概率确定模块,用于根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒的故障概率;故障诊断模块,用于对所述故障概率大于预设阈值的目标芯粒进行故障诊断。
[0012]第三方面,本专利技术实施例还提供了一种计算设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的芯粒故障诊断方法。
[0013]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一项所述的芯粒故障诊断方法。
[0014]本专利技术实施例提供了一种芯粒故障诊断方法和装置,该方法通过获取多芯粒目标芯片在当前运行总时长内的运行数据集,确定其包括的工作模式,以及各芯粒在每个工作模式下的运行时长和特征参数,进而确定该目标芯片中的各芯粒的故障概率,以在故障概
率大于预设阈值时,对该故障概率对应的目标芯粒进行故障诊断,实现精准定位。如此,通过对各芯粒进行故障概率的预测,并对故障概率大于预设阈值的目标芯粒及时进行故障诊断,不仅无需实时对各芯粒进行故障诊断,还实现了对故障芯粒的精准定位及诊断。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是本专利技术一实施例提供的一种芯粒故障诊断方法的流程图;图2是本专利技术一实施例提供的一种计算设备的硬件架构图;图3是本专利技术一实施例提供的一种芯粒故障诊断装置结构图。
具体实施方式
[0017]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]如图1所示,本专利技术实施例提供了一种芯粒故障诊断方法,该方法包括:步骤100,获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;步骤102,根据所述运行数据集,确定至少一个工作模式;步骤104,在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;步骤106,根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种芯粒故障诊断方法,其特征在于,包括:获取包括多芯粒的目标芯片在当前运行总时长内的运行数据集;根据所述运行数据集,确定至少一个工作模式;在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数;根据所述各芯粒在每个所述工作模式下的运行时长和特征参数,确定所述目标芯片中的各芯粒的故障概率;对所述故障概率大于预设阈值的目标芯粒进行故障诊断。2.根据权利要求1所述的方法,其特征在于,所述根据所述运行数据集,确定至少一个工作模式,包括:对所述运行数据集进行第一特征提取,得到运行特征信息;其中,所述运行特征信息包括所述目标芯片的所触发的硬件事件集合;对所述运行特征信息进行分类,得到对应不同运行特征信息的不同工作模式。3.根据权利要求1所述的方法,其特征在于,所述在所述当前运行总时长内,确定各芯粒在每个所述工作模式下的运行时长和特征参数,包括:根据所述运行数据集,确定每个所述工作模式的运行时长;对所述运行数据集进行第二特征提取,得到每个所述工作模式下的特征参数;其中,所述特征参数包括所述目标芯片的温度、各芯粒的供电电压、工作频率;针对每个芯粒,统计该芯粒在每个所述工作模式下的运行时长。4.根据权利要求3所述的方法,其特征在于,所述确定所述目标芯片中的各芯粒的故障概率,包括:针对每个所述芯粒,根据该芯粒在每个所述工作模式下的特征参数和运行时长,确定该芯粒的故障评分,并基于预设规则和所述故障评分,确定该芯粒的故障概率;所述故障评分通过如下公式确定:其中,M
i
用于表征第i个芯粒的故障评分;j用于表征第j个工作模式;n用于表征所述工作模式的总个数;t
i,j
用于表征第i个芯粒在第j个工作模式下的运行时长;f
i,j
用于表征第i个芯粒在第j个工作模式下的工作频率;V
i,j
用于表征第i个芯粒在第j个工作模式下的供电电压;I
i
用于表征第i个芯粒的漏电流;P
ei
用于表征第i个芯粒的标定功率;T
j
用于表征所述目...

【专利技术属性】
技术研发人员:王嘉诚张少仲张栩
申请(专利权)人:中诚华隆计算机技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1