微处理器可靠性评测方法及其系统技术方案

技术编号:4268793 阅读:275 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及微处理器可靠性评测方法及其系统,方法包括:步骤1,确定待分析的间歇故障所属的故障类型,确定故障模型的关键参数;步骤2,根据确定的故障类型,从微处理器中选择硬件结构;步骤3,在微处理器中运行测试程序,根据关键参数运用故障模型进行故障模拟,确定测试程序执行过程中硬件结构包含的体系结构正确执行位或关键时间区域;步骤4,根据确定的体系结构正确执行位或关键时间区域,判断发生在硬件结构中的间歇故障是否影响程序执行结果;步骤5,根据判断结果计算测试程序执行过程中,待分析的硬件结构中的间歇故障脆弱因子,对微处理器进行可靠性评测。本发明专利技术能够评测微处理器中不同结构发生的间歇故障引起程序执行出错的概率。

【技术实现步骤摘要】

本专利技术属于计算机领域,尤其涉及微处理器可靠性评测方法及其系统
技术介绍
随着超深亚微米工艺在微处理器制造中的逐步应用,单个芯片上集成的晶体管数 目越来越多,微处理器的性能得到大幅度提高。同时由于集成电路特征尺寸的减少、电源电 压的降低和频率的升高,使得微处理器芯片越来越容易受到间歇故障、软错误和永久故障 的影响,芯片的失效率随之不断升高,可靠性成为微处理器设计中一个日益严峻的问题。 间歇故障是一种硬件故障,表现为一段时间内信号频繁无规律地错误跳变,主要 是由于制造工艺的变异,芯片使用过程中的老化,以及电压温度的波动而引起的;软错误是 指电路由于受到宇宙射线中的高能粒子或芯片封装中a粒子的辐射作用,产生的单比特 位翻转,从而改变存储单元中保存的数据或逻辑电路运算结果。永久故障反映的是电路单 元产生了不可恢复的故障,主要是由于制造缺陷,如硅片中的污染或材料的老化,引起的。 间歇故障和软错误可导致相似的跳变效应,但它们之间有如下不同第一,从空间的角度, 一个间歇故障将在同一位置出现多次,而一个软错误则几乎不会在同一位置连续出现。第 二,从时间的角度, 一个间歇故障是突然频繁发生,而一个软错误通常表现为单比特位翻转 或单事件瞬态故障;第三,如果一个受间歇故障影响的硬件结构被替换,那么发生的间歇故 障将随之消失,但软错误将同样可能发生在该结构上。间歇故障与永久故障也存在不同,主 要表现为它们的持续时间不同。随着间歇故障持续的时间不断变长,最终也可能转化为永 久故障。 本领域中有研究认为软错误和永久故障是引起微处理器芯片失效的主要原因,根 据实际系统运行过程中收集的数据显示,间歇故障已成为影响芯片失效的最主要因素。如 果不采用容错技术提高可靠性,微处理器芯片的失效率将随着晶体管数目的增多而成指数 级增长。 为提高系统的可靠性,传统采用的技术包括三模冗余和线程级冗余。三模冗余对 同一功能单元使用三个冗余模块,三个模块提供相同的输入,最后用一个多数表决器对三 个输出结果进行表决,以确定最后的输出,如图l所示。三模冗余允许其中的任一模块出 现故障,因此能实现高可靠系统,但该技术带来的面积和功耗开销将达到300% ;线程级冗 余技术中通过对运行的线程产生一个冗余线程,其中一个称为主线程,另外一个称为从线 程,两个线程的输入一致,产生的结果需比较一致后才能写入到内存中,如图2所示。该方 法也能达到较高的可靠性,但将导致30%的性能损失。可见现有容错技术在确保实现可 靠性目标的同时,带来了较大的性能、面积以及功耗方面的开销。因此,微处理器中需要评 测不同的容错技术带来的利与弊。如果采用严格的容错技术,将引起不必要的开销;反之, 如果采用轻量级的容错技术,则可能达不到系统的可靠性设计目标。微处理器领域中需要 一种简单、量化的评测指标,分析不同结构中发生间歇故障对程序运行的影响,从而指导可靠性设计。现有技术中使用的评测指标MTTF(Mean Time To Failure,平均失效时间)或5FIT(Failures In Time,即时错误)主要用于表征不同结构的可靠性,但没有考虑到不同结 构对故障的屏蔽效果,以及该些结构的使用率,不适于描述发生的各种故障对程序运行的 影响。 目前研究人员已经提出相关的评测指标,分析不同结构中发生的软错误对程序执 行结果的影响。其中一种评测指标称为体系结构脆弱因子。它表示微处理器中某结构发生 的软错误最终影响程序执行结果的概率。体系结构脆弱因子越高,表明该结构中发生的软 错误越容易导致程序执行出错,相应的结构需要采取更严格的容错技术,以提高系统的可 靠性。计算某结构的体系结构脆弱因子,可通过分析一段时间内该结构中包含的体系结构 正确执行位进行。体系结构脆弱因子是从体系结构和微体系结构的角度分析发生的软错误 对程序执行结果的影响。分析不同的微处理器结构,以及运行不同的测试程序时,计算得到 的体系结构脆弱因子都将发生变化。另外一个分析软错误的评测指标为程序脆弱因子,该 评测指标仅从体系结构的角度分析程序运行过程中对软错误的屏蔽效果,便于指导程序设 计以及选择编译优化技术,提高系统的可靠性。 此外针对永久故障,研究人员提出了一种永久故障脆弱因子,该评测指标主要用 于分析比较不同容错技术对系统可靠性提高的程度。 间歇故障由于产生原因的多样性,已成为影响微处理器可靠性设计的重要因素, 分析微处理器中不同结构发生的间歇故障对程序执行结果的影响具有重要意义。现有技 术还没有相应的评测指标分析微处理器中不同结构对间歇故障的屏蔽效果,因此需要一种 评测指标表示不同结构中发生间歇故障导致程序出错的概率,从而指导微处理器可靠性设 计。
技术实现思路
为解决上述问题,本专利技术提供了微处理器可靠性评测方法及其系统,能够评测微处理器中不同结构发生的间歇故障引起程序执行出错的概率。本专利技术公开了一种微处理器可靠性评测方法,包括 步骤l,对间歇故障进行分类,确定待分析的间歇故障所属的故障类型,并对所述 故障类型建立相应的故障模型,确定所述故障模型的关键参数; 步骤2,根据确定的故障类型,从所述微处理器中选择硬件结构,被选择的硬件结 构为待分析的硬件结构; 步骤3,在微处理器中运行测试程序,根据所述关键参数,运用所述故障模型进行 故障模拟,确定测试程序执行过程中待分析的硬件结构包含的体系结构正确执行位或关键 时间区域; 步骤4,根据确定的体系结构正确执行位或关键时间区域,判断发生在所述硬件结 构中的间歇故障是否影响程序执行结果; 步骤5,根据判断结果计算测试程序执行过程中,待分析的硬件结构中的间歇故障 脆弱因子,对微处理器进行可靠性评测。 所述步骤l进一步为, 步骤21,根据待分析的间歇故障产生的原因,对间歇故障进行分类; 步骤22,确定待分析的间歇故障所属的故障类型,并对所述故障类型建立相应的故障模型; 步骤23,确定故障模型的关键参数,所述关键参数包括故障持续时间、活跃时间以 及非活跃时间。 所述故障类型包括间歇固定为1或0故障,间歇开路或短路故障,以及间歇时序故障。 所述步骤2进一步为, 步骤41,当间歇故障类型为间歇固定为1或0的故障时,选择微处理器中的存储结 构,所述存储结构为待分析的硬件结构。 所述步骤3中确定测试程序执行过程中待分析的硬件结构的体系结构正确执行 位进一步为, 步骤51,根据测试程序执行过程中指令的类型和指令的执行结果的使用情况,判 断出每条指令中包含的体系结构正确执行位。 所述步骤51进一步为,指令为NOP指令时,对应操作码为NOP指令的体系结构正 确执行位;如果硬件结构中保存NOP指令,则NOP指令操作码对应的比特位为所述硬件结构 的体系结构正确执行位。 所述步骤3中确定待分析的硬件结构的关键时间区域进一步为, 步骤71,根据分析的时间区域内所述硬件结构中的数据是否被读取,判断所述被分析的时间区域是否为所述硬件结构的关键时间区域。 所述步骤71进一步为,对任意一个寄存器,所述时间区域为相邻两次向寄存器中 写入数据的时间间隔,如果在所述时间区域内,写入的数据被读取,则所述时间区域为关键 时间区域。 所述步骤4进一步为, 步骤91,对于体系结构正确执行位,判断间歇故障是否影响所述硬件结本文档来自技高网
...

【技术保护点】
一种微处理器可靠性评测方法,其特征在于,包括:步骤1,对间歇故障进行分类,确定待分析的间歇故障所属的故障类型,并对所述故障类型建立相应的故障模型,确定所述故障模型的关键参数;步骤2,根据确定的故障类型,从所述微处理器中选择硬件结构,被选择的硬件结构为待分析的硬件结构;步骤3,在微处理器中运行测试程序,根据所述关键参数,运用所述故障模型进行故障模拟,确定测试程序执行过程中待分析的硬件结构包含的体系结构正确执行位或关键时间区域;步骤4,根据确定的体系结构正确执行位或关键时间区域,判断发生在所述硬件结构中的间歇故障是否影响程序执行结果;步骤5,根据判断结果计算测试程序执行过程中,待分析的硬件结构中的间歇故障脆弱因子,对微处理器进行可靠性评测。

【技术特征摘要】
一种微处理器可靠性评测方法,其特征在于,包括步骤1,对间歇故障进行分类,确定待分析的间歇故障所属的故障类型,并对所述故障类型建立相应的故障模型,确定所述故障模型的关键参数;步骤2,根据确定的故障类型,从所述微处理器中选择硬件结构,被选择的硬件结构为待分析的硬件结构;步骤3,在微处理器中运行测试程序,根据所述关键参数,运用所述故障模型进行故障模拟,确定测试程序执行过程中待分析的硬件结构包含的体系结构正确执行位或关键时间区域;步骤4,根据确定的体系结构正确执行位或关键时间区域,判断发生在所述硬件结构中的间歇故障是否影响程序执行结果;步骤5,根据判断结果计算测试程序执行过程中,待分析的硬件结构中的间歇故障脆弱因子,对微处理器进行可靠性评测。2. 根据权利要求1所述的微处理器可靠性评测方法,其特征在于, 所述步骤l进一步为,步骤21,根据待分析的间歇故障产生的原因,对间歇故障进行分类; 步骤22,确定待分析的间歇故障所属的故障类型,并对所述故障类型建立相应的故障 模型;步骤23,确定故障模型的关键参数,所述关键参数包括故障持续时间、活跃时间以及非 活跃时间。3. 根据权利要求1所述的微处理器可靠性评测方法,其特征在于, 所述故障类型包括间歇固定为1或0故障,间歇开路或短路故障,以及间歇时序故障。4. 根据权利要求3所述的微处理器可靠性评测方法,其特征在于, 所述步骤2进一步为,步骤41,当间歇故障类型为间歇固定为1或0的故障时,选择微处理器中的存储结构, 所述存储结构为待分析的硬件结构。5. 根据权利要求1所述的微处理器可靠性评测方法,其特征在于,所述步骤3中确定测试程序执行过程中待分析的硬件结构的体系结构正确执行位进 一步为,步骤51,根据测试程序执行过程中指令的类型和指令的执行结果的使用情况,判断出 每条指令中包含的体系结构正确执行位。6. 根据权利要求5所述的微处理器可靠性评测方法,其特征在于,所述步骤51进一步为,指令为NOP指令时,对应操作码为NOP指令的体系结构正确执 行位;如果硬件结构中保存NOP指令,则NOP指令操作码对应的比特位为所述硬件结构的体 系结构正确执行位。7. 根据权利要求1所述的微处理器可靠性评测方法,其特征在于, 所述步骤3中确定待分析的硬件结构的关键时间区域进一步为,步骤71,根据分析的时间区域内所述硬件结构中的数据是否被读取,判断所述被分析 的时间区域是否为所述硬件结构的关键时间区域。8. 根据权利要求7所述的微处理器可靠性评测方法,其特征在于,所述步骤71进一步为,对任意一个寄存器,所述时间区域为相邻两次向寄存器中写入 数据的时间间隔,如果在所述时间区域内,写入的数据被读取,则所述时间区域为关键时间 区域。9. 根据权利要求2所述的微处理器可靠性评测方法,其特征在于, 所述步骤4进一步为,步骤91,对于体系结构正确执行位,判断间歇故障是否影响所述硬件结构的体系结构 正确执行位,如果是,则发生在所述硬件结构中的间歇故障影响程序执行结果;步骤92,对于关键时间区域,判断间歇故障是否发生在所述硬件结构的关键时间区域 内,如果是,则所述硬件结构中的间歇故障影响程序执行结果。10. 根据权利要求9所述的微处理器可靠性评测方法,其特征在于, 所述步骤91进一步为,步骤ioi,如果所述硬件结构中连续包含体系结构正确执行位的时间短于间歇故障的活跃时间,并且包含体系结构正确执行位的时间与间歇故障非活跃时间重叠,则发生的间 歇故障不改变体系结构正确执行位;步骤102,根据发生的间歇故障是否改变体系结构正确执行位,对硬件结构中的体系结 构正确执行位进行投影,得到二维表示的体系结构正确执行位。11. 根据权利要求10所述的微处理器可靠性评测方法,其特征在于, 所述步骤5进一步为,步骤lll,对于体系结构正确执行位,根据公式计算间歇故障脆弱因子,所述公式中分 母为硬件结构包含的比特位数,分子则为间歇故障投影到二维平面的体系结构正确执行位 数;步骤112,对于关键时间区域,根据公式计算间歇故障脆弱因子,所述公式中分母为硬 件结构的入口数,分子则为关键时间区域受间歇故障影响的入口数目。12. —种微处理器可靠性评测系统,其特征在于,包括故障模型建立模块,用于对间歇故障进...

【专利技术属性】
技术研发人员:潘送军胡瑜李晓维
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1