一种启动阶段收集硬件错误的方法及装置制造方法及图纸

技术编号:27142932 阅读:35 留言:0更新日期:2021-01-27 21:29
本发明专利技术提供一种启动阶段收集硬件错误的方法及装置,所述方法包括:第一阶段:在内存未初始化前,收集各CPU内单个核心和非核心的第一MCA错误信息并将其发送给BMC,检测上一次启动是否有IERR错误,若有则进行一次冷重启,若没有则进入第二阶段;第二阶段:在内存和CPU内所有核心完成初始化后,MCA初始化前,收集各CPU内所有核心和非核心的第二MCA错误信息并将其发送给BMC,检测上一次启动是否有IERR错误,若有则进行一次冷重启,若没有则在MCA初始化后,IO错误处理初始化前,收集IO的IO故障数据并将其发送给BMC;BMC对第一MCA错误信息、第二MCA错误信息和IO故障数据进行处理,诊断定位并输出故障日志。本发明专利技术的启动阶段收集硬件错误的方法及装置,可以对故障进行更精准的定位。位。位。

【技术实现步骤摘要】
一种启动阶段收集硬件错误的方法及装置


[0001]本专利技术涉及服务器监控
,特别涉及一种启动阶段收集硬件错误的方法及装置。

技术介绍

[0002]目前,随着近几年互联网时代的发展,对海量数据处理能力的需求正在快速增长,从而对服务器提出了更高的要求,作为服务器产业的原始动力,先进技术的应用于对于用户采购会起到决定性的作用,在网络技术、虚拟化技术、分布式应用快速发展的今天,对服务器要求的可用性,可靠性,可服务性的指标越来越高。金融服务、电信服务已经成为经济社会生活随时随地不可或缺的要素,金融、电信业务的正常运转高度依赖于信息系统的持续稳定运行,对服务器的可用性也提出了很高的要求,要求服务器系统的可用度达到99.999%。
[0003]服务器运行阶段如果出现故障,需要及时上报到带外监控管理系统,用户能及时通过故障日志信息获取当前服务器的健康状况。对已经告警的部件,客户可以在方便的时候停机更换故障部件。当机器发生崩溃自动重启,操作系统无法及时处理故障数据,但机器重启后,Intel的CPU中部分硬件错误信息仍然可以保留,这个时候仍然有机会本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种启动阶段收集硬件错误的方法,其特征在于,包括:第一阶段:在内存未初始化前,收集各CPU内单个核心和非核心的第一MCA错误信息并将其发送给BMC,检测上一次启动是否有IERR错误,若有则进行一次冷重启,若没有则进入第二阶段;第二阶段:在所述内存和所述CPU内所有核心完成初始化后,MCA初始化前,收集各CPU内所有核心和非核心的第二MCA错误信息并将其发送给BMC,检测上一次启动是否有IERR错误,若有则进行一次冷重启,若没有则在MCA初始化后,IO错误处理初始化前,收集IO的IO故障数据并将其发送给BMC;BMC对所述第一MCA错误信息、第二MCA错误信息和IO故障数据进行处理,诊断定位并输出故障日志。2.如权利要求1所述的一种启动阶段收集硬件错误的方法,其特征在于,所述第一MCA错误信息、第二MCA错误信息和IO故障数据包括:故障区域、数据收集阶段和故障类别。3.如权利要求1所述的一种启动阶段收集硬件错误的方法,其特征在于,所述BMC对所述第一MCA错误信息、第二MCA错误信息和IO故障数据进行处理,诊断定位并输出故障日志,包括:根据上一次启动阶段收集到的诊断辅助信息结合预设的解析算法对所述第一MCA错误信息、第二MCA错误信息和IO故障数据进行处理,定位具体部件的故障信息并将其录入故障日志后输出。4.如权利要求1所述的一种启动阶段收集硬件错误的方法,其特征在于,将所述第一MCA错误信息按预设的第一交互数据格式发送给BMC,将所述第二MCA错误信息按预设的第二交互数据格式发送给BMC,将所述IO故障数据按预设的第三交互数据格式发送给BMC。5.如权利要求1所述的一种启动阶段收集硬件错误的方法,其特征在于,在第一阶段中若进行冷重启后重新进行第一阶段,在第二阶段中若进行冷重启后也重新进行第一阶段。6.一种启动阶段收集硬件错误的装置,其特征在于,包括:第一错误收集模...

【专利技术属性】
技术研发人员:罗鹏芳王兵陈思彤
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1