一种片上网络结构级的软错误在线评估方法技术

技术编号:18355885 阅读:75 留言:0更新日期:2018-07-02 09:15
本发明专利技术公开了一种片上网络结构级的软错误在线评估方法,通过边界分析模型和虚拟过滤机制协同作用,有效的实现了双层模型驱动的可靠性在线评估,为基于子网划分多应用的众核动态配置提供量化依据。初始化片上网络、软错误模型等参数,先采用计数器或离线学习的方法快速得到一位翻转的可靠性指标;再通用过边界分析模型快速估算多位翻转模型的可靠性指标;如果能满足当前应用的可靠性指标,则结束评估。否则再使用虚拟过滤机制,评估容错机制的保护效果,重复此过程直到满足应用的可靠性需求。本发明专利技术可以很好满足可靠性评估的在线实时要求,且重用性能计数器或机器学习离线结果,降低在线评估的额外开销,适用于众核多应用动态并发执行的场景。

【技术实现步骤摘要】
一种片上网络结构级的软错误在线评估方法
本专利技术涉及片上网络可靠性评估,特别涉及一种片上网络结构级的软错误在线评估方法。
技术介绍
目前,工艺尺寸的缩小,片上集成度越来越高,处理器结构从早期的单核演变为多核乃至当前被广泛使用的众核。片上网络因其低延迟、高带宽、易扩展等优势取代传统总线成为众核处理器的基础通信组件。因此,片上网络的研究越来越受到人们的关注。同时,工艺的缩小、供电电压的降低和工作频率增加也使得位翻转的软错误成为影响芯片可靠性主导因素。这种瞬态的、可恢复的软错误的主要特征表现为两个方面:1)软错误引发的位翻转概率呈指数级增长;2)多位翻转的比率和复杂性越来越高。这一现状导致片上网络的可靠性问题成为设计考虑的突出性因素。特别是在多应用在众核丰富计算资源提交先并行执行的情况下,需要片上网络支持子网动态划分以保证错误隔离增强可靠性,有效的片上网络可靠性在线评估方法是保证整个众核处理器可靠性的重要环节。因此,面向片上网络的在线评估方法至关重要。2008年,Xiaodong和Sarita等人首次提出结构级软错误在线评估的概念。这种在线评估方法基于错误注入、跟踪、统计的方法对处理器核的结构易感因子进行快速评估。把输出错误与注入错误的比值作为评估指标结构易感因子的评估值。其中,为了保证在线评估效果,错误跟踪路径不宜过长,在分析存储结构时,仅考虑一阶效应,例如处理器核中的寄存器文件通常在一个寄存器注入一位翻转的软错误,跟踪执行当前指令后,这个寄存器的错误是否作为源寄存器再把注入的错误传播到后续的执行过程中,如果传播则记作一次错误输出,反之则记为正确输出;针对逻辑功能部件ALU,只需统计使用的频率,即被用的周期数与总周期数的比值。虽然这种评估方法在处理器修改较小的条件下保证评估效率,但是因为仅考虑处理器中一阶效应存在精度损失,且没有考虑多位翻转的软错误的复杂特性。2017年,Arunkumar等人提出了面向存储阵列和处理核的通用在线评估方法,这一评估方法通过机器学习一些代表性的测试程序仿真结果构建软错误易感因子和底层flip-flops的信号传播之间的互相关性的预测模型,但是该方案仅支持一位翻转,且对片上网络这一通信部件的可靠性评估缺乏支持。
技术实现思路
专利技术的目的:本专利技术的目的在于解决现有技术中存在的不足,提供一种片上网络结构级的软错误在线评估方法。为了达到上述目的,本专利技术提供一种片上网络结构级的软错误在线评估方法,该方法包含以下步骤:步骤1、初始化配置,在不同应用执行切换时或一个应用的不同执行阶段切换时开启在线评估,输入结构参数A、错误模型M、容错可选参数FT和应用的可靠性需求指标AVFreq;其中A是节点路由器和节点间链路结构参数,FT是可选的容错机制的集合,M是软错误模型的各种位翻转概率比例以及每一种位翻对应的物理分布模式的集合,AVFreq是应用对应的可靠性需求指标;步骤2、评估无保护机制下的可靠性指标:首先对片上网络各个部件进行属性判断,如果是链路或路由计算、虚通道仲裁逻辑、交叉开关仲裁逻辑部件这些非存储结构,跳转步骤3,否则跳转到步骤4;步骤3、采用面向一位翻转(SingleBitUpset,简称SBU)的快速评估方法,可以采用基于计数器的快速评估方法,其实现方法是复用现有片上网络中性能计数器,无需额外的硬件开销,把链路或路由计算、虚通道仲裁逻辑、交叉开关仲裁逻辑部件的使用周期数与执行周期总数的比例作为结构易感因子(ArchitecturalVulnerabilityFactor,简称AVF)的评估值,例如用于头微片的路由计算单元的AVF值等于路由计算单元使用周期数与执行总周期数的比率,也可以采用基于机器学习的快速评估,通过对典型测试程序仿真数据分析AVF与统计特征的互相关构建预测模型,在线评估不同执行条件下的AVF值,跳转到步骤7;步骤4、对存储结构部件虚通道的一位翻转快速评估,可以使用结构正确执行(ArchitectureCorrectExecution,简称ACE)的快速分析方法,统计一位翻转条件下数据微片在虚通道中等待周期与执行周期总数的比例作为AVFsbu评估值,也可以采用基于机器学习的快速评估,通过对典型测试程序仿真数据分析结构易感因子AVF与统计特征的互相关构建预测模型,在线评估不同执行条件下的AVF值,;步骤6、基于边界分析模型把一位翻转的评估结果扩展到多位翻转(Multi-CellUpsets,简称MCU);其中边界分析模型核心是计算多位翻转条件下最小边界评估值和最大边界评估两个边界评估值都是对虚通道n个存储空间对应的s种多位翻转情况进行算数平均。w(q)是q位翻转在所有多位翻转占的权重,MIN(AVFmcu(q,i))是第q位翻转,虚通道第i个微片存储空间对应的最小评估值等于且AVFsbu(q,i)通过上述步骤快速分析方法可得,adj(i,j)描述了错误模型中k种错误物理分布第j类时第i个微片存储空间对应的邻居存储空间集合,最小评估值即对最好情况下相邻存储空间的执行正确周期数分布一致,对所有一位翻转情况下的评估值取最大值;类似的,MAX(AVFmcu(q,i))是第q位翻转,虚通道第i个微片存储空间对应的最大评估值,是最坏情况下发生在多个邻居微片存储空间的周期分布没有重叠,进行所有邻居存储空间对应的一位翻转评估值加和操作并与最大评估上界1取最小值,等于然后,通过最大最小两个边界评估值计算平均值作为评估值;步骤7、把片上网络中链路、逻辑部件以及存储部件的评估结果合成基于部件面积平均的评估报告;步骤8、判断评估报告是否小于等于当前执行的应用的可靠性需求指标AVFreq,如果满足则跳到步骤10,否则跳到步骤9;步骤9、动态配置容错机制对片上网络的节点进行保护;步骤10、使用基于虚拟过滤的评估方法估算可靠性指标。首先,针对选择额容错机制,对输入的错误模型M,基于错误纠正能力进行修正,生成新的错误模型M*,包括对应的位翻转类型和对应的比例;其次,新错误模型下的一位翻转AVFsbu*值等效为最新的多位翻转评估值AVFmcu,然后再次使用边界分析计算新的多位翻转评估值AVFmcu*,并跳到步骤7合成新的评估报告;步骤11、结束评估。与现有技术相比,本专利技术具有以下优点及效果:1、本方案充分考虑了片上网络这一通信部件的结构特性,采用部件属性先分类-后合成的评估方法。2、本方案采用了边界分析模型驱动的评估方法把复杂多用的多位翻转评估问题简化为易解的一位翻转评估问题,充分保证评估在线实时效果。3、本方案使用了虚拟过滤模型驱动的评估机制可以在线对动态容错配置进行在线评估,减少因过度保护引发的性能损失,且更好适应多应用动态并发执行场景。4、本方案采用纯模型嵌入的在线评估思想,不依赖于底层电路实现和上层应用程序的变化,有很好的扩展性。附图说明图1为本专利技术的流程图。具体实施方式为了使本专利技术实现的技术手段、创作特征与功效易于明白了解,下面结合图示与具体实施例,进一步阐述本专利技术提出的一种片上网络结构级的软错误在线评估方法。如图1所示,本专利技术提供一种片上网络结构级的软错误在线评估方法,该方法包含以下步骤:步骤1、初始化配置:在不同应用执行切换时或一个应用的不同执行阶段切换时开启在线评估,片上网络每个节本文档来自技高网
...
一种片上网络结构级的软错误在线评估方法

【技术保护点】
1.一种片上网络结构级的软错误在线评估方法,其特征在于包括以下步骤:步骤1、初始化配置:在不同应用执行切换时或一个应用的不同执行阶段切换时开启在线评估,片上网络每个节点都输入片上网络的结构参数A、可选的容错机制参数FT、错误模型M、应用的可靠性需求指标AVFreq;其中A是节点路由器和节点间链路结构参数,FT是可选的容错机制的集合,M是软错误模型的各种位翻转概率比例以及每一种位翻对应的物理分布模式的集合,AVFreq是应用对应的可靠性需求指标;步骤2、评估无保护机制下的可靠性指标:首先对片上网络各个部件进行属性判断,如果是链路或路由计算、虚通道仲裁逻辑、交叉开关仲裁逻辑这些非存储结构部件,跳转步骤3,否则跳转到步骤4;步骤3、采用面向一位翻转的快速评估方法计算非存储部件结构易感因子的评估值;跳转到步骤7;步骤4、使用面向一位翻转的快速评估方法估算一位翻转条件下虚通道结构易感因子的评估值;步骤5、判断是否需要考虑多位翻转,如果仅包含一位翻转则跳转到步骤7,否则跳转到步骤6;步骤6、基于边界分析模型把一位翻转的评估结果扩展到多位翻转;其中边界分析模型核心是计算多位翻转条件下最小边界评估值

【技术特征摘要】
1.一种片上网络结构级的软错误在线评估方法,其特征在于包括以下步骤:步骤1、初始化配置:在不同应用执行切换时或一个应用的不同执行阶段切换时开启在线评估,片上网络每个节点都输入片上网络的结构参数A、可选的容错机制参数FT、错误模型M、应用的可靠性需求指标AVFreq;其中A是节点路由器和节点间链路结构参数,FT是可选的容错机制的集合,M是软错误模型的各种位翻转概率比例以及每一种位翻对应的物理分布模式的集合,AVFreq是应用对应的可靠性需求指标;步骤2、评估无保护机制下的可靠性指标:首先对片上网络各个部件进行属性判断,如果是链路或路由计算、虚通道仲裁逻辑、交叉开关仲裁逻辑这些非存储结构部件,跳转步骤3,否则跳转到步骤4;步骤3、采用面向一位翻转的快速评估方法计算非存储部件结构易感因子的评估值;跳转到步骤7;步骤4、使用面向一位翻转的快速评估方法估算一位翻转条件下虚通道结构易感因子的评估值;步骤5、判断是否需要考虑多位翻转,如果仅包含一位翻转则跳转到步骤7,否则跳转到步骤6;步骤6、基于边界分析模型把一位翻转的评估结果扩展到多位翻转;其中边界分析模型核心是计算多位翻转条件下最小边界评估值和最大边界评估两个边界评估值都是对虚通道n个存储空间对应的s种多位翻转情况进行算数平均;w(q)是q位翻转在所有多位翻转占的权重,MIN(AVFmcu(q,i))是第q位翻转,虚通道第i个微片存储空间对应的最小评估值等于且AVFsbu(q,i)通过上述步骤快速分析方法可得,adj(i,j)描述了错误模型中k种错误物理分布第j类时第i个微片存储空间对应的邻居存储空间集合,最小评估值即对最好情况下相邻存储空间的执行正确周期数分布一致,对所有一位翻转情况下的评估值取最大值;类似的,MAX(AVFmcu(q,i))是第q位翻转,虚通道第i个微片存储空间对应的最大评估值,是最坏情况下发生在多个邻居微片存储空间的周期分布没有...

【专利技术属性】
技术研发人员:焦佳佳韩德志
申请(专利权)人:上海海事大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1