一种诊断黑盒日志中PCIE报错信息的方法和系统技术方案

技术编号:19634838 阅读:689 留言:0更新日期:2018-12-01 15:36
一种诊断黑盒日志中PCIE报错信息的方法,包括以下步骤:1)经由日志收集工具收集黑盒日志;2)经由报错信息检索模块查找黑盒日志中的报错关键词组;3)经由错误信息分析模块提取报错关键词组中的参数,并基于参数分析发生故障的设备信息;和4)经由故障解释输出模块输出发生故障的设备信息。通过使用该方法能够实现黑盒日志的PCIE错误信息自动化诊断,降低了人力成本,提高了PCIE设备故障的分析效率,并且提高了排查故障的准确性。

A Method and System for Diagnosing PCIE Error Information in Black Box Log

A method for diagnosing PCIE error information in black-box logs includes the following steps: 1) collecting black-box logs through log collection tools; 2) searching error keyword phrases in black-box logs through error information retrieval module; 3) extracting the parameters of error keyword phrases through error information analysis module, and generating error keyword phrases based on parameter analysis. Faulty equipment information; and 4) Faulty equipment information is output through fault interpretation output module. By using this method, the automatic diagnosis of PCIE error information in black box log can be realized, the labor cost is reduced, the analysis efficiency of PCIE equipment fault is improved, and the accuracy of troubleshooting is improved.

【技术实现步骤摘要】
一种诊断黑盒日志中PCIE报错信息的方法和系统
本领域涉及计算机领域,并且,更具体地涉及一种诊断黑盒日志中PCIE报错信息的方法和系统。
技术介绍
服务器是提供计算服务的设备,由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。如今在竞争日益激烈的服务器市场中,服务器的可靠性成为越来越重要的指标。服务器出现故障后的停机时间是服务器可靠性的重要组成部分。服务器黑盒日志中记录了服务器运行中各个组件的状态事件,包括组件的正常运行记录和组件发生故障的记录,例如电源的上下线、内存发生ECC(纠错码)故障、PCIE(高速串行计算机总线)总线错误等。黑盒日志有助于工作人员检查服务器是否发生故障以及确定发生故障的具体设备。现有根据黑盒日志记录排查服务器故障的方法为人工筛查,工作人员查看黑盒日志记录中的PCIE故障信息,然后根据PCIE故障信息查看服务器主板结构图,在主板结构图中定位发生故障的PCIE设备。人工筛查黑盒日志中的PCIE故障信息,不仅消耗大量人力、时间,并且排查结果也存在一定的不正确性。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种诊断黑盒日志中PCIE报错信息的方法和系统,能够实现黑盒日志的PCIE错误信息自动化诊断,降低了人力成本,提高了PCIE设备故障的分析效率,并且提高了排查故障的准确性。基于上述目的,本专利技术的实施例的一个方面提供了一种诊断黑盒日志中PCIE报错信息的方法,包括以下步骤:1)经由日志收集工具收集所述黑盒日志;2)经由报错信息检索模块查找所述黑盒日志中的报错关键词组;3)经由错误信息分析模块提取所述报错关键词组中的参数,并基于所述参数分析发生故障的设备信息;和4)经由故障解释输出模块输出发生故障的所述设备信息。根据本专利技术的一个实施例,在步骤1)之前还包括建立PCIE插槽的Bus/Dev/Func与主板丝印对照表的步骤。根据本专利技术的一个实施例,所述对照表为所述PCIE插槽中Bus/Dev/Func的一组数字参数与相应主板丝印的对应关系。根据本专利技术的一个实施例,经由日志收集工具收集所述黑盒日志包括:所述日志收集工具将所述黑盒日志解析为文本文件。根据本专利技术的一个实施例,步骤2)中所述报错关键词组包括PCIEError、Busno、Devno、Funcno。根据本专利技术的一个实施例,步骤3)中所述参数为与所述报错关键词组中Busno、Devno、Funcno相对应的一组数字。根据本专利技术的一个实施例,基于所述参数分析发生故障的设备信息包括:所述错误信息分析模块通过在所述对照表中查找所述参数来分析发生故障的所述设备信息。根据本专利技术的一个实施例,发生故障的所述设备信息包括主板丝印。本专利技术的实施例的另一个方面,还提供了一种诊断黑盒日志中PCIE报错信息的系统,包括:用于收集所述黑盒日志的日志收集工具;用于查找所述黑盒日志中的报错关键词组的报错信息检索模块;用于提取所述报错关键词组中的参数并基于所述参数分析发生故障的设备信息的错误信息分析模块;和用于输出发生故障的所述设备信息的故障解释输出模块。根据本专利技术的一个实施例,所述故障解释输出模块为视觉输出或听觉输出中的一种。本专利技术具有以下有益技术效果:本专利技术实施例提供的诊断黑盒日志中PCIE报错信息的方法和设备,通过报错信息检索模块查找黑盒日志中的报错关键词组;经由错误信息分析模块提取报错关键词组中的参数,并基于该参数分析发生故障的设备信息;经由故障解释输出模块输出发生故障的设备信息的技术方案,能够实现黑盒日志的PCIE错误信息自动化诊断,降低了人力成本,提高了PCIE设备故障的分析效率,并且提高了排查故障的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为根据本专利技术一个实施例的诊断黑盒日志中PCIE报错信息的方法的示意性流程图;图2为根据本专利技术一个实施例的诊断黑盒日志中PCIE报错信息的系统的示意性框图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。基于上述目的,本专利技术的实施例的第一个方面,提出了一种诊断黑盒日志中PCIE报错信息的方法一个实施例。图1示出的是该方法的示意性流程图。如图1中所示,该方法可以包括以下步骤:步骤S101,经由日志收集工具收集所述黑盒日志;步骤S102,经由报错信息检索模块查找黑盒日志中的报错关键词组;步骤S103,经由错误信息分析模块提取报错关键词组中的参数,并基于该参数分析发生故障的设备信息;步骤S104,经由故障解释输出模块输出发生故障的设备信息。通过以上技术方案,能够实现黑盒日志的PCIE错误信息自动化诊断,降低了人力成本,提高了PCIE设备故障的分析效率,并且提高了排查故障的准确性。在本专利技术的一个优选实施例中,在步骤S101之前还包括建立PCIE插槽的Bus/Dev/Func与主板丝印对照表的步骤。在本专利技术的一个优选实施例中,该对照表为PCIE插槽中Bus/Dev/Func的一组数值参数与相应主板丝印的对应关系,其实例如下表1所示:表1服务器PCIE丝印对照表应当理解,表1仅仅是一个示例,可以扩展并覆盖更多型号的服务器。在本专利技术的一个优选实施例中,步骤S102中的报错关键词组包括PCIEError、Busno、Devno、Funcno。例如,当服务器上外接的PCIE设备发生故障时,黑盒日志会有如下形式的日志记录:“[Jun10201716:29:03]:PCIEError:Busno0Devno3Funcno0BusFatalErrorassertion.”。当经由报错信息检索模块查找到黑盒日志记录中的关键词组时,读取日志行,传输到错误信息分析模块,例如将上述报错信息“PCIEError:Busno0Devno3Funcno2BusFatalErrorassertion.”传输到错误信息分析模块。在本专利技术的一个优选实施例中,步骤S103中的发生故障的设备信息包括主板丝印,主板丝印为发生故障设备的具体物理位置,可以直接获得发生故障设备的位置。在本专利技术的一个优选实施例中,步骤S103中的参数为与报错关键词组中Busno、Devno、Funcno相对应的一组数字。在经由报错信息检索模块将读取的日志行传输到错误信息分析模块之后,错误信息分析模块将与Busno、Devno、Funcno相对应的一组数字提取出来。例如:报错信息为“PCIEError:Busno0Devno3Funcno2BusFatalErrorassertion.”则将Busno、Devno、Funcno三个参数后的相应数字参数提取出来,即,提取出来的数字参数为0,3,2,并将上述数字参数组合成规定形式,例如0/3/2。在本专利技术的一个优选实施例中,错误信息分析模块通过在上述对照表中查找数字参数来分析故障设备信息。例如,如果发生PCIE故障的服务器型号为SA5212M4,根据上述方法提取出的参数为0/3/2,则经本文档来自技高网...

【技术保护点】
1.一种诊断黑盒日志中PCIE报错信息的方法,其特征在于,包括以下步骤:1)经由日志收集工具收集所述黑盒日志;2)经由报错信息检索模块查找所述黑盒日志中的报错关键词组;3)经由错误信息分析模块提取所述报错关键词组中的参数,并基于所述参数分析发生故障的设备信息;和4)经由故障解释输出模块输出发生故障的所述设备信息。

【技术特征摘要】
1.一种诊断黑盒日志中PCIE报错信息的方法,其特征在于,包括以下步骤:1)经由日志收集工具收集所述黑盒日志;2)经由报错信息检索模块查找所述黑盒日志中的报错关键词组;3)经由错误信息分析模块提取所述报错关键词组中的参数,并基于所述参数分析发生故障的设备信息;和4)经由故障解释输出模块输出发生故障的所述设备信息。2.根据权利要求1所述的诊断黑盒日志中PCIE报错信息的方法,其特征在于,在步骤1)之前还包括建立PCIE插槽的Bus/Dev/Func与主板丝印对照表的步骤。3.根据权利要求2所述的诊断黑盒日志中PCIE报错信息的方法,其特征在于,所述对照表为所述PCIE插槽中Bus/Dev/Func的一组数字参数与相应主板丝印的对应关系。4.根据权利要求2所述的诊断黑盒日志中PCIE报错信息的方法,其特征在于,经由日志收集工具收集所述黑盒日志包括:所述日志收集工具将所述黑盒日志解析为文本文件。5.根据权利要求2所述的诊断黑盒日志中PCIE报错信息的方法,其特征在于,步骤2)中所述报错关键词组包括PCIEError...

【专利技术属性】
技术研发人员:徐亚洲
申请(专利权)人:郑州云海信息技术有限公司
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1