基于神经网络的硬件故障诊断系统技术方案

技术编号:9990937 阅读:227 留言:0更新日期:2014-05-02 04:14
基于神经网络的硬件故障诊断系统,属于硬件故障诊断领域。解决了现有在线硬件故障诊断系统的诊断准确率低的问题,本发明专利技术所述的症状收集单元内设有计数器,该症状收集单元用于收集故障传播过程中外显的高层级症状,通过计数器在症状线程重新执行的过程中,持续对症状触发次数进行累加,并计算到达率,之后,将到达率送至神经网络诊断单元进行诊断,到达率为症状信息;神经网络诊断单元用于对症状收集单元送来的症状信息进行分类,并输出诊断结果至仲裁单元,仲裁单元用于对诊断结果进行汇总,且仲裁单元用于对非法结果进行筛查,故障恢复单元用于在接收到诊断结果后,根据所述诊断结果对故障部件的处理,实现故障恢复。本发明专利技术应用在硬件故障诊断领域。

【技术实现步骤摘要】
【专利摘要】基于神经网络的硬件故障诊断系统,属于硬件故障诊断领域。解决了现有在线硬件故障诊断系统的诊断准确率低的问题,本专利技术所述的症状收集单元内设有计数器,该症状收集单元用于收集故障传播过程中外显的高层级症状,通过计数器在症状线程重新执行的过程中,持续对症状触发次数进行累加,并计算到达率,之后,将到达率送至神经网络诊断单元进行诊断,到达率为症状信息;神经网络诊断单元用于对症状收集单元送来的症状信息进行分类,并输出诊断结果至仲裁单元,仲裁单元用于对诊断结果进行汇总,且仲裁单元用于对非法结果进行筛查,故障恢复单元用于在接收到诊断结果后,根据所述诊断结果对故障部件的处理,实现故障恢复。本专利技术应用在硬件故障诊断领域。【专利说明】基于神经网络的硬件故障诊断系统
本专利技术属于硬件故障诊断领域。
技术介绍
与瞬时故障和永久故障相比,处理器间歇故障相关诊断方法的研究发展较为缓慢。主要原因在于,半导体制造工艺兴起时特征尺寸较大,处理器设备(例如晶体管)寿命受特征尺寸影响尚不显著,因此间歇故障相关研究尚处于高层级或理论论证阶段。1975年,文献论证了系统架构对间歇故障可诊断性的影响。1992年,文献提出一种多处理器架构下间歇故障诊断方法等。然而,随着对摩尔定律的恪守,制造工艺激进,特征尺寸步入纳米时代,栅氧厚度迫近原子极限。2002年英特尔90纳米工艺栅氧厚度为1.2纳米厚,仅相当于五个原子摞在一起的厚度。在这样的背景下,半导体设备老化问题日趋严重,间歇故障频发,已威胁到处理器生命期,间歇故障诊断机制需求日益迫切。M.L.Li等基于重执行的思想,在高层级提出处理器永久故障诊断机制SWAT(Software Anomely Treatment)。该机制前提假设应用场景为多核,且至少有一个核是可靠的。当处理器内某核出现故障时,SWAT对其上的线程重执行,故障消失,则说明核发生瞬时故障;否则,将线程上下文迁移至无故障核重新执行,如果执行结果正确,则该核被诊断为永久故障;除上述两种情况之外,则认为是软件故障。我们认为SWAT诊断策略可以从以下几方面得到提升。首先,SWAT诊断粒度为核级(Core level)。虽然多核内有多个硬件核可供使用,但相对于更细粒度的部件(例如功能单元)来说,核仍然是更加宝贵的计算资源。部件级诊断(Unit level)至少带来两方面的优势:(1)对多核架构而言,如果能给出部件级诊断结果,就可以暂时关闭故障部件,以保持线程内其他资源的可用性。例如,对于UltraSPARC T2来说,每个核内有8个硬线程和4条流水线。其中有2条整型流水、1条浮点流水、1条访存流水。如果诊断1条整型流水中的ALU发生故障,可以只关闭该条流水,这就保证了故障核内的8条线程继续正确执行整型、浮点和访存操作。(2)为提升多核处理器流片成功率,在设计时常常对核内关键部件实施冗余策略。流片过程中一旦某部件出现加工失效(Manufacturing defect),可将该部件关闭或使用E-Fuse等技术以保证整块芯片的可用性。这就恰好给部件级诊断提供了“天然”的资源池,当出现部件级故障时对冗余部件加以利用以达到不降低硬件性能的理想效果。
技术实现思路
本专利技术是为了解决现有在线硬件故障诊断系统的诊断准确率低的问题,本专利技术提供了一种基于神经网络的硬件故障诊断系统。基于神经网络的硬件故障诊断系统,它包括症状收集单元、神经网络诊断单元、仲裁单元和故障恢复单元;所述的症状收集单元内设有计数器,该症状收集单元用于收集故障传播过程中外显的高层级症状,通过计数器在症状线程重新执行的过程中,持续对症状触发次数进行累加,并计算到达率,之后,将到达率送至神经网络诊断单元进行诊断,所述的到达率为症状信息;神经网络诊断单元用于对症状收集单元送来的症状信息进行分类,并输出诊断结果至仲裁单元,仲裁单元用于对诊断结果进行汇总,汇总的诊断结果中包括非法结果和合法结果,且仲裁单元用于对非法结果进行筛查,若筛查出非法结果,则通知症状收集单元对出现症状的线程进行重新执行,直至出现合法结果,并将该合法结果发送至故障恢复单元,若未筛查出非法结果,则直接将汇总的诊断结果发送至故障恢复单元,故障恢复单元用于在接收到 诊断结果后,根据所述诊断结果对故障部件的处理,实现故障恢复。诊断结果包括故障模型和故障部件两部分,只有两部分均正确,才是正确诊断,否则即为诊断错误。实验通过离线训练得到若干组局部最优解;之后,利用局部最优解进行全局诊断,经排序得出全局最优解;最终,得出诊断准确率。假设,每一时刻系统中只有一个部件发生故障,且故障模型确定。实验过程中,共对3个故障部件、3类故障模型完成了 10个Mibench测试基准的故障注入,每个故障模型、故障部件和测试基准,进行300次故障注入实验;每测试基准一共进行43200次故障注入,其中,间歇故障36000次(300次*3功能模块*4爆发长度*10测试基准),瞬时故障3600次,永久故障3600次;实验结果和数据具体参见图2至7所示,实验表明:瞬时故障、间歇故障和永久故障的诊断准确率分别达到了 84.4%、95. 7%和96. 6%,这证明了基于高层级症状的神经网络诊断方法的有效性;如图2至7给出了本专利技术所述的基于神经网络的硬件故障诊断系统对故障模型和故障部位的诊断结果,且图2至图7均采用mibench中的典型测试基准,包括:basicmath,dijkstra, FFT, qsort和stringsearch,除瞬时故障以外,除瞬时故障以外,永久故障和间歇故障的诊断准确率超过了 95%,且诊断准确率快速收敛,大多数诊断实例在10次以内收敛。这说明:对于刚刚进入老化期的间歇故障部件、和刚刚表现出永久故障特性的部件进行故障诊断十分有效。Dijkstra和FFT对于算逻部件诊断准确率为0,经对数据进行分析,原因是将瞬时故障误诊为爆发长度为2的间歇故障。这主要由于两者的爆发长度十分接近(瞬时故障爆发长度为I)而导致产生症状行为的区分度不高而导致。通常情况下,人们希望得到捕获症状后,系统第一诊断的准确率。表5-4给出了诊断准确率。表5-4诊断准确率【权利要求】1.基于神经网络的硬件故障诊断系统,其特征在于,它包括症状收集单元(I)、神经网络诊断单元(2)、仲裁单元(3)和故障恢复单元(4); 所述的症状收集单元(I)内设有计数器,该症状收集单元(I)用于收集故障传播过程中外显的高层级症状,通过计数器在症状线程重新执行的过程中,持续对症状触发次数进行累加,并计算到达率,之后,将到达率送至神经网络诊断单元(2)进行诊断,所述的到达率为症状信息; 神经网络诊断单元(2)用于对症状收集单元(I)送来的症状信息进行分类,并输出诊断结果至仲裁单元(3), 仲裁单元(3)用于对诊断结果进行汇总,汇总的诊断结果中包括非法结果和合法结果,且仲裁单元(3 )用于对非法结果进行筛查,若筛查出非法结果,则通知症状收集单元(I)对出现症状的线程进行重新执行,直至出现合法结果,并将该合法结果发送至故障恢复单元(4),若未筛查出非法结果,则直接将汇总的诊断结果发送至故障恢复单元(4),故障恢复单元(4)用于在接收到诊断结果后,根据所述诊断结果对故障部件的处理,本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:崔刚傅忠传王超朱东杰潘波王秀峰季春光张明王彦张毕英张策
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1