用于处理异构系统中ECC错误的方法、异构系统及其相关产品技术方案

技术编号:37679945 阅读:19 留言:0更新日期:2023-05-28 09:33
本公开涉及一种用于处理异构系统中ECC错误的方法、异构系统及其相关产品,该异构系统中包括计算装置,其包括在组合处理装置中,该组合处理装置还可以包括接口装置和其他处理装置。该计算装置与其他处理装置进行交互,共同完成用户指定的计算操作。组合处理装置还可以包括存储装置,该存储装置分别与计算装置和其他处理装置连接,用于存储该计算装置和其他处理装置的数据。本披露的方案可以实现对ECC错误的有效处理并且避免该错误的扩散。错误的有效处理并且避免该错误的扩散。错误的有效处理并且避免该错误的扩散。

【技术实现步骤摘要】
用于处理异构系统中ECC错误的方法、异构系统及其相关产品


[0001]本公开一般地涉及存储领域。更具体地,本公开涉及用于处理异构系统中错误检查和纠正(“Error Checking and Correcting”,即“ECC”) 错误的方法、异构系统、计算机可读存储介质、计算机程序产品和计算装置。

技术介绍

[0002]在数据存储和传递方面,例如高带宽存储器(“High BandwidthMemory”,即“HBM”)等各类存储器扮演着重要的角色。在经过长时间的读写操作之后,存储器通常会出现数据错误。在一些场景中,前述的数据错误是无法通过存储器自身的ECC纠错进行修复的数据错误(本申请上下文简称为ECC错误)。为了解决这种不可纠错的异常场景,一些存储器(例如HBM)支持在发生ECC错误时,利用备用内存对出错的内存进行修复和替换。然而,由于硬件本身的限制,例如其可以用于替换的备用内存的数量较少,因此当备用内存耗尽时,硬件将无法对后续新出现的不可纠正的ECC错误进行修复。鉴于此,现有技术中需要一种用于针对该不可纠正的ECC错误的解决方案。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于处理异构系统中ECC错误的方法,其中所述异构系统包括主机侧和设备侧,其中所述方法在所述设备侧处执行,并且包括:获取待屏蔽的存储地址的地址信息,其中所述存储地址与所述ECC错误相关联;以及根据所述地址信息对所述存储地址执行屏蔽操作。2.根据权利要求1所述的方法,其中在所述异构系统的初始化阶段,所述方法包括:执行所述设备侧的初始化操作;在执行所述初始化操作后,从所述主机侧获取所述地址信息并且根据所述地址信息对所述存储地址执行屏蔽操作;以及将执行所述屏蔽操作后获得的屏蔽结果写入至所述主机侧。3.根据权利要求2所述的方法,其中根据所述地址信息对所述存储地址执行屏蔽操作包括:响应于待屏蔽的所述存储地址当前被占用,对所述存储地址进行错误标记;响应于待屏蔽的所述存储地址当前未被占用,对所述存储地址执行隔离。4.根据权利要求3所述的方法,其中在所述异构系统的运行阶段,所述方法还包括:响应于所述待屏蔽的存储地址当前被占用,将所述存储地址进行保存;以及在所述存储地址被释放后,对保存的所述存储地址执行所述屏蔽操作。5.根据权利要求4所述的方法,其中将所述存储地址进行保存包括将所述存储地址作为节点挂接于链表中,所述方法还包括:在执行内存释放操作时遍历所述链表,以确定所述链表中是否存在待释放的所述存储地址;响应于所述链表中存在所述存储地址,在执行针对于所述存储地址的内存释放操作后,对所述存储地址执行所述屏蔽操作。6.根据权利要求4或5所述的方法,还包括:响应于发生所述ECC错误,执行针对于所述存储地址的缓存无效化操作,以便令所述存储地址从所述设备侧的缓存中释放,其中执行所述缓存无效化操作包括将执行所述屏蔽操作前所申请的内存释放,以便申请的内存不在所述设备侧的缓存中驻留。7.根据权利要求6所述的方法,其中在将执行所述屏蔽操作前所申请的内存释放中,所述方法包括:记录缓存中分配内存的第一时刻;记录开始执行所述屏蔽操作前的第二时刻;以及比较所述第一时刻和第二时刻,以便将所述第二时刻前所述缓存中驻留的内存全部释放。8.一种用于处理异构系统中ECC错误的方法,其中所述异构系统包括主机侧和设备侧,所述方法在所述主机侧执行,并且包括:获取待屏蔽的存储地址的地址信息,其中所述地址信息与所述ECC错误相关联;以及将所述地址信息进行存储,以便由所述设备侧执行读取并根据所述地址信息对所述存储地址执行屏蔽操作。9.根据权利要求8所述的方法,还包括:从所述设备侧读取关于执行所述屏蔽操作后所获得的屏蔽结果;以及
根据所述屏蔽结果来更新与所述屏蔽操作关联的状态位。10.根据权利要求8或9所述的方法,其中在所述异构系统的运行阶段,所述方法还包括:在触发所述设备侧执行所述屏蔽操作前,令所述主机侧的内存缓存标记位无效,以便禁止与所述存储地址关联的内存被分配和使用。11.根据权利要求10所述的方法,其中在所述运行阶段,所述方法还包括:...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:中科寒武纪科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1