一种内存故障信息收集方法、装置及存储介质制造方法及图纸

技术编号:37127050 阅读:16 留言:0更新日期:2023-04-06 21:25
本申请实施例提供一种内存故障信息收集方法、装置及存储介质,涉及数据存储领域,能够避免故障信息漏报。该方法应用于服务器,该服务器包括内存、带外控制器和带内控制器,该方法包括:在服务器运行过程中,上述带内控制器对内存进行故障检测,并将检测到的故障信息发送到上述带外控制器;在该服务器重新启动过程中,若服务器的启动模式为冷重启,则上述带内控制器确定内存中是否存有新增故障信息,其中,该新增故障信息为上述带外控制器中未存有的故障信息;若上述内存中存有新增故障信息,则带内控制器将该新增故障信息发送至带外控制器。制器。制器。

【技术实现步骤摘要】
一种内存故障信息收集方法、装置及存储介质


[0001]本申请实施例涉及数据存储领域,尤其涉及一种内存故障信息收集方法、装置及存储介质。

技术介绍

[0002]随着互联网业务的不断复杂化,服务器中内存的故障率也在不断攀升,因此,如何收集内存故障信息成为本领域所关注的重点。
[0003]现有的内存故障信息收集方法在内存所在的服务器发生冷重启后,无法收集该服务器在发生冷重启前,内存中发生的故障信息,进而导致内存中发生的部分故障信息被遗漏。

技术实现思路

[0004]本申请实施例提供一种内存故障信息收集方法、装置及存储介质,能够避免故障信息漏报。
[0005]为达到上述目的,本申请实施例采用如下技术方案:
[0006]第一方面,本申请实施例提供内存故障信息收集方法,该方法应用于服务器,该服务器包括内存、带外控制器和带内控制器,该方法包括:在服务器运行过程中,上述带内控制器对内存进行故障检测,并将检测到的故障信息发送到上述带外控制器;在该服务器重新启动过程中,若服务器的启动模式为冷重启,则上述带内控制器确定内存中是否存有新增故障信息,其中,该新增故障信息为上述带外控制器中未存有的故障信息;若上述内存中存有新增故障信息,则带内控制器将该新增故障信息发送至带外控制器。
[0007]本申请实施例提供的内存故障信息收集方法,在服务器运行过程中,带内控制器对内存进行故障检测,并将检测到的故障信息发送到上述带外控制器;在该服务器重新启动过程中,若服务器的启动模式为冷重启,则带内控制器确定内存中的新增故障信息,并将该新增故障信息发送至带外控制器,以使该带外控制器收集到该新增故障信息;从而避免故障信息漏报。
[0008]一种可能的实现方式中,上述内存包括持久性内存DCPMM。
[0009]将服务器中的确定为DCPMM,在服务器即使发生冷重启,内存中存储的故障信息也不会被重置,从而保证了新增故障信息不被丢失,以使得后续带内控制器从该DCPMM中确定新增故障信息,并将该新增故障信息发送至带外控制器,以使该带外控制器收集到该新增故障信息;从而解决了避免故障信息漏报。
[0010]一种可能的实现方式中,上述在服务器重新启动过程中,若上述服务器的启动模式为冷重启,则带内控制器确定内存中是否存有新增故障信息,包括:在服务器重新启动过程中,若该服务器的启动模式为冷重启,且上述DCPMM的异步刷新ADR功能开启,则带内控制器确定该内存中是否存有新增故障信息。
[0011]本申请实施例提供的内存故障信息收集方法,在服务器重新启动过程中,若该服
务器的启动模式为冷重启,且上述DCPMM的异步刷新ADR功能开启,则带内控制器确定该内存中的新增故障信息,并将该新增故障信息发送至带外控制器,以使该带外控制器收集到该新增故障信息;从而避免了在DCPMM的ADR功能关闭的情况下,服务器发生冷重启(此时,服务器发生的冷重启为正常冷重启,并非宕机故障导致的冷重启)时,带内控制器执行本申请实施例提供的内存故障信息收集方法,进而节约了带内控制器的计算资源。
[0012]一种可能的实现方式中,在服务器重新启动过程中,若DCPMM的ADR功能关闭,且服务器的重启类型为宕机重启,则带内控制器确定内存中是否存有新增故障信息。
[0013]本申请实施例提供的内存故障信息收集方法,在服务器重新启动过程中,若DCPMM的ADR功能关闭时(即:宕机热重启时),带内控制器确定该内存中的新增故障信息,并将该新增故障信息发送至带外控制器,以使该带外控制器收集到该新增故障信息,从而避免了服务器在宕机热重启时漏报故障信息。
[0014]一种可能的实现方式中,在服务器重新启动过程中,上述方法还包括:带内控制器从上述DCPMM中获取ADR功能的开启状态;该ADR功能的开启状态包括开启或关闭。
[0015]一种可能的实现方式中,上述故障信息中包括故障标识,其中,该故障标识用于表示内存故障发生的先后顺序;该内存故障为服务器的内存中已发生的故障。
[0016]一种可能的实现方式中,上述在服务器运行过程中,带内控制器对内存进行故障检测,并将检测到的故障信息发送到带外控制器;包括:在服务器运行过程中,当内存发生非宕机故障时,该带内控制器将上述非宕机故障信息发送至带外控制器,以使该带外控制器存储非宕机故障信息中的故障标识。
[0017]本申请实施例提供的内存故障信息收集方法是在服务器的运行阶段,当内存发生非宕机故障时,通过该带内控制器直接将该非宕机故障信息发送给带外控制器,以使该带外控制器完成对该非宕机故障的收集,从而提高了带外控制器对内存故障的收集效率。
[0018]一种可能的实现方式中,上述带内控制器确定内存中是否存有新增故障信息,包括:带内控制器从带外控制器中获取第一故障标识;其中,该第一故障标识为带外控制器中存储的内存故障的故障标识;带内控制器从内存的故障寄存器中获取第二故障标识;其中,该第二故障标识为内存已发生的内存故障的故障标识;带内控制器根据上述第一故障标识和第二故障标识,确定上述内存中是否存有新增故障信息。
[0019]由于DCPMM为非易失性存储器,所以DCPMM所在的服务器无论发生冷重启还是热重启,又或者是该服务器在运行阶段,该DCPMM的故障寄存器中的存储的故障信息都不会丢失,而上述第二故障标识正是从该故障寄存器中获取的,所以即使服务器发生冷重启也能从该故障寄存器中获取第二故障标识。然后,基于该第二故障标识和上述带外控制器存储的第一故障标识确定新增故障信息,并使带外控制器收集该新增故障信息;从而解决了避免故障信息漏报。
[0020]一种可能的实现方式中,第一故障标识是带外控制器备份的内存故障中发生时间最晚的内存故障的故障标识;第二故障标识是内存中发生时间最晚的内存故障的故障标识。
[0021]相比于,将已收集到的内存故障的故障标识信息都存储在带外控制器中的方案,本申请实施例提供的内存故障信息收集方法是带外控制器最后收集到的内存故障的故障标识存储在带外控制器中,从而减少了对带外控制器的存储资源的占用。
[0022]第二方面,提供了一种内存故障信息收集装置。在一个示例中,该装置可以是带内控制器。该装置包括:检测单元、收发单元、确定单元;检测单元用于在服务器运行过程中,对内存进行故障检测;收发单元用于将检测到的故障信息发送到带外控制器;上述确定单元用于在服务器重新启动过程中,若服务器的启动模式为冷重启,确定内存中是否存有新增故障信息,其中,新增故障信息为带外控制器中未存有的故障信息;收发单元还用于若内存中存有新增故障信息,将新增故障信息发送至带外控制器。
[0023]一种可能的实现方式中,上述内存包括持久性内存DCPMM。
[0024]一种可能的实现方式中,上述确定单元具体用于在服务器重新启动过程中,若服务器的启动模式为冷重启,且DCPMM的异步刷新ADR功能开启,确定内存中是否存有新增故障信息。
[0025]一种可能的实现方式中,上述确定本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内存故障信息收集方法,其特征在于,应用于服务器,所述服务器包括内存、带外控制器和带内控制器,所述方法包括:在所述服务器运行过程中,所述带内控制器对所述内存进行故障检测,并将检测到的故障信息发送到所述带外控制器;在所述服务器重新启动过程中,若所述服务器的启动模式为冷重启,则所述带内控制器确定所述内存中是否存有新增故障信息,其中,所述新增故障信息为所述带外控制器中未存有的故障信息;若所述内存中存有所述新增故障信息,则所述带内控制器将所述新增故障信息发送至所述带外控制器。2.根据权利要求1所述的方法,其特征在于,所述内存包括持久性内存DCPMM。3.根据权利要求2所述的方法,其特征在于,所述在所述服务器重新启动过程中,若所述服务器的启动模式为冷重启,则所述带内控制器确定所述内存中是否存有新增故障信息,包括:在所述服务器重新启动过程中,若所述服务器的启动模式为冷重启,且所述DCPMM的异步刷新ADR功能开启,则所述带内控制器确定所述内存中是否存有新增故障信息。4.根据权利要求2或3所述的方法,其特征在于,所述方法还包括:在所述服务器重新启动过程中,若所述DCPMM的ADR功能关闭,且所述服务器的重启类型为宕机重启,则所述带内控制器确定所述内存中是否存有新增故障信息。5.根据权利要求2

4任一项所述的方法,其特征在于,在所述服务器重新启动过程中,所述方法还包括:所述带内控制器从所述DCPMM中获取所述ADR功能的开启状态;所述ADR功能的开启状态包括开启或关闭。6.根据权利要求1
...

【专利技术属性】
技术研发人员:张殿生
申请(专利权)人:超聚变数字技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1