优化故障诊断日志收集过程的方法、装置、终端及介质制造方法及图纸

技术编号:38762689 阅读:9 留言:0更新日期:2023-09-10 10:35
本发明专利技术提供一种优化故障诊断日志收集过程的方法、装置、终端及介质,属于服务器日志收集技术领域,所述方法步骤如下:S1.BMC预先维护设备资产信息与状态寄存器映射关系的映射文件;S2.BMC检测到置位的错误寄存器后记录宕机时间,通知ACD工具进行状态寄存器信息收集,并记录收集完成时间;S3.BMC通知BAFI工具进行故障设备信息和错误类型信息解析,并在解析完成后记录解析完成时间,且在定位到故障设备信息时,记录并通知用户收集故障诊断日志。本发明专利技术实现故障诊断过程中各阶段用时的准确获取,故障解析过程简便快速,并能在解析完成后进行提示以及实现故障诊断日志的单独收集。提示以及实现故障诊断日志的单独收集。提示以及实现故障诊断日志的单独收集。

【技术实现步骤摘要】
优化故障诊断日志收集过程的方法、装置、终端及介质


[0001]本专利技术属于服务器日志收集
,具体涉及一种优化故障诊断日志收集过程的方法、装置、终端及介质。

技术介绍

[0002]ACD,是Autonomous Crash Dump的简称,自动故障转储。
[0003]BAFI,是GO框架中使用模板将通用JSON、BSON、YAML、XML翻译成任何格式的工具,简称文件解析工具。
[0004]CAT ERR,是Conditional acceptance error的简称,条件接收错误,CPU的CAT ERR是代码错误。
[0005]PECI,是Platform Environment Control Interface的简称,平台环境式控制接口。
[0006]SEL,是System Event Log的简称,系统事件日志。
[0007]BMC支持业务操作系统由于内部错误、不可纠正的内存错误以及严重总线错误等原因造成宕机时,自动通过ACD收集CPU故障寄存器信息,并通过BAFI工具对故障部件、故障模块和故障原因进行解析。现有的故障解析方式通过、引入原生的Intel ACD和BAFI程序进行。
[0008]引入原生Intel ACD&BAFI的BMC代码库后,当系统产生内部错误宕机后,CPLD检测CPU CAT ERR_N pin持续为低时(一般大于160ns)会对CPU相关寄存器置位,BMC轮询到被置位的寄存器后会调用内部集成的ACD程序收集寄存器信息,ACD通过执行PECI命令收集全量的寄存器信息生成crashdump.json文件,BMC再调用BAFI工具并结合包含所有内存和PCIE设备BDF信息的MAP文件来解析crashdump.j son文件并最终生成bafi debug.j son文件,用户通过下载一键日志来获取bafi debug.j son文件提取故障信息。
[0009]上述方式存在以下缺陷,首先当用户对BMC故障诊断功能有时间需求时,无法准确得到从宕机发生后到ACD对故障寄存器完成收集再到BAFI工具完成解析的时间;其次,原生BAFI程序只能提供最终的解析文件无法将解析过程中的信息传给BMC,进而导致每次出现故障后定位出引起宕机的PCIe设备和内存物理位置,都需要收集一键日志再找到BAFI解析文件再从中提取有用信息,并且在BAFI工具解析文件信息量比较大时相当耗费时间;再次,BAFI工具解析完成后没有对用户给与任何提示,可能会使相关人员忽视对这次故障的分析;最后,日志收集需要对BMC进行全量日志收集,无法单独收集故障诊断日志。
[0010]因此,针对上述缺陷,提供一种优化故障诊断日志收集过程的方法、装置、终端及介质,是非常有必要的。

技术实现思路

[0011]针对上述原生ACD及BAFI工具引入BMC代码库导致故障诊断过程中各阶段用时不明确、BAFI工具解析文件有用信息提取费时、解析完成缺少提示以及无法单独收集故障诊
断日志的缺陷,本专利技术提供一种优化故障诊断日志收集过程的方法、装置、终端及介质,以解决上述技术问题。
[0012]第一方面,本专利技术提供一种优化故障诊断日志收集过程的方法,包括如下步骤:
[0013]S 1.BMC预先维护设备资产信息与状态寄存器映射关系的映射文件;
[0014]S 2.BMC检测到置位的错误寄存器后记录宕机时间,通知ACD工具进行状态寄存器信息收集,并记录收集完成时间;
[0015]S 3.BMC通知BAFI工具进行故障设备信息和错误类型信息解析,并在解析完成后记录解析完成时间,且在定位到故障设备信息时,记录并通知用户收集故障诊断日志。
[0016]进一步地,步骤S1具体步骤如下:
[0017]S11.配置基本输入输出系统在POST完成后将服务器的设备资产信息推送给BMC;
[0018]S12.BMC维护设备资产信息及状态寄存器的映射关系,生成映射文件;
[0019]S13.BMC保存映射文件到指定目录。映射文件保存在BMC系统的指定目录。
[0020]进一步地,服务器设备资产包括内存及PCIE设备,设备资产信息包括位置信息和BDF信息。BDF是Binary Data File,二进制数据文件,是由读取数据分析程序创建,用于标识未使用的硬盘空间里健康状况,又称逻辑卷状态。
[0021]进一步地,步骤S2具体步骤如下:
[0022]S21.BMC检测错误寄存器是否置位;
[0023]若是,进入步骤S22;
[0024]若否,返回步骤S21;
[0025]S22.BMC记录当前时间作为宕机时间;
[0026]S23.BMC通知ACD工具收集所有状态寄存器信息;
[0027]S24.BMC检测是否存在故障转存文件;
[0028]若是,进入步骤S25;
[0029]若否,返回步骤S24;
[0030]S25.BMC判定ACD工具完成状态寄存器信息收集,记录收集完成时间。当ACD工具完成状态寄存器信息收集后,自动生成故障转存文件。记录宕机时间和收集完成时间,便于后续统计各阶段的用时。
[0031]进一步地,步骤S 21之前还包括如下步骤:
[0032]当业务操作系统由于内部错误发生宕机时,CPLD置位错误寄存器。BMC检测到错误寄存器置位即可判定服务器内部发生故障宕机。
[0033]进一步地,步骤S 3具体步骤如下:
[0034]S 31.BMC通过优化的BAFI工具解析故障转存文件,获取故障设备信息及错误类型信息;
[0035]S 32.判断故障转存文件中是否定位到故障设备信息;
[0036]若是,进入步骤S 33;
[0037]若否,BAFI工具解析存在的故障,并生成关键信息为空的解析调试文件,结束;
[0038]S 33.BMC记录到故障诊断日志中,并判断是否存在解析调试文件;
[0039]若是,记录解析完成时间,进入步骤S 34;
[0040]若否,返回步骤S 33;
[0041]S 34.通知用户收集故障诊断日志。
[0042]进一步地,步骤S 33具体步骤如下:
[0043]S 331.BMC添加故障诊断日志寄存器;
[0044]S 332.BAFI工具完成故障转存文件解析后,向BMC返回故障设备信息及错误类型信息;
[0045]S 333.BAFI工具生成解析调试文件,将故障诊断日志寄存器置位,同时触发日志收集的SEL日志;
[0046]S 334.BMC将故障设备信息及错误类型信息记录到故障诊断日志;
[0047]S 335.BMC判断是否存在解析调试文件;
[0048]若是,进入步骤S 336;
[0049]若否,返回步骤S 332;
[0050]S 336.BMC判定BAFI工具完成故本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种优化故障诊断日志收集过程的方法,其特征在于,包括如下步骤:S 1.基板管理控制器预先维护设备资产信息与状态寄存器映射关系的映射文件;S 2.基板管理控制器检测到置位的错误寄存器后记录宕机时间,通知自动故障转储工具进行状态寄存器信息收集,并记录收集完成时间;S 3.基板管理控制器通知文件解析工具进行故障设备信息和错误类型信息解析,并在解析完成后记录解析完成时间,且在定位到故障设备信息时,记录并通知用户收集故障诊断日志。2.如权利要求1所述的优化故障诊断日志收集过程的方法,其特征在于,步骤S1具体步骤如下:S 11.配置基本输入输出系统在开机自检完成后将服务器的设备资产信息推送给基板管理控制器;S 12.基板管理控制器维护设备资产信息及状态寄存器的映射关系,生成映射文件;S 13.基板管理控制器保存映射文件到指定目录。3.如权利要求1所述的优化故障诊断日志收集过程的方法,其特征在于,步骤S2具体步骤如下:S 21.基板管理控制器检测错误寄存器是否置位;若是,进入步骤S 22;若否,返回步骤S 21;S 22.基板管理控制器记录当前时间作为宕机时间;S 23.基板管理控制器通知自动故障转储工具收集所有状态寄存器信息;S 24.基板管理控制器检测是否存在故障转存文件;若是,进入步骤S 25;若否,返回步骤S 24;S 25.基板管理控制器判定自动故障转储工具完成状态寄存器信息收集,记录收集完成时间。4.如权利要求3所述的优化故障诊断日志收集过程的方法,其特征在于,步骤S21之前还包括如下步骤:当业务操作系统由于内部错误发生宕机时,复杂可编程逻辑系统置位错误寄存器。5.如权利要求3所述的优化故障诊断日志收集过程的方法,其特征在于,步骤S3具体步骤如下:S 31.基板管理控制器通过优化的文件解析工具解析故障转存文件,获取故障设备信息及错误类型信息;S 32.判断故障转存文件中是否定位到故障设备信息;若是,进入步骤S 33;若否,文件解析工具解析存在的故障,并生成关键信息为空的解析调试文件,结束;S 33.基板管理控制器记录到故障诊断日志中,并判断是否存在解析调试文件;若是,记录解析完成时间,进入步骤S 34;若否,返回步骤S 33;S 34.通知用户收集故障诊断日志。
6.如权利要求3所述的...

【专利技术属性】
技术研发人员:孙越
申请(专利权)人:苏州浪潮智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1