利用时序相关性进行IT故障根因分析的方法及装置制造方法及图纸

技术编号:16472424 阅读:38 留言:0更新日期:2017-10-29 00:09
本发明专利技术涉及一种利用时序相关性进行IT故障根因分析的方法及装置,其中的所述方法包括:获取系统日志;抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据;基于量化假设检测自动提取所述时间序列数据的相关特征;当IT故障发生时,通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,其中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述IT故障的发生原因的依据。本发明专利技术的有益效果为:通过机器学习的方式自动化完成故障根因分析过程,帮助用户快速找出故障发生原因,减少故障诊断时间(Mean Time To Diagonise,MTTD),使系统最快恢复正常。

Method and device for IT fault root analysis using time series correlation

The invention relates to a method and device for root IT fault analysis method using a temporal correlation, the method includes: obtaining the system log; key field extracting the system log, the key field of statistics to get the system log time series data; relevant quantitative feature automatic extraction by hypothesis testing the time series data based on IT; when the fault occurs, tested by Grainger causal relationship between the features of the time series data of the time series data between the various related characteristics of the cause and effect relationship value as the evaluation for size causes the breakdown of IT basis. The beneficial effect of the invention is: through the method of machine learning automation fault root cause analysis process, to help users quickly find out the cause of the failure, reduce the time of fault diagnosis (Mean Time To Diagonise, MTTD), the system quickly returned to normal.

【技术实现步骤摘要】
利用时序相关性进行IT故障根因分析的方法及装置
本专利技术实施例涉及信息处理
,尤其涉及一种利用时序相关性进行IT故障根因分析的方法及装置。
技术介绍
日志数据是故障排除、监控、安全、合规、电子取证等许多企业应用的基础。同时,它们具有巨大的分析价值,随着大数据时代的来临,数据产生速度加快、数据体量巨大,单凭人力无法跟上机器产生数据的速度。日志数据中的大多数内容也并不能交由人工直接识别。随着日志容量和类型的增长,日志数据超出了人类的认知能力,对日志内容进行分析并追踪潜在的问题越来越困难,尤其是在多日志相关性分析出现之后,需要经验丰富的操作人员跟踪事件链、过滤噪音,并最终诊断出问题出现的根本原因。对于业务故障的根因分析,一直比较依赖于运维人员的经验和试错,只有最简单的硬件故障,才能通过简单的parent(起源,父级元素)设定做到一点告警收敛,目前还没有能够较好地解决上述问题的方法或装置出现。
技术实现思路
为了克服相关技术中存在的技术问题,本专利技术提供一种利用时序相关性进行IT故障根因分析的方法及装置,以实现在故障发生后能够及时地对故障原因进行分析并排除故障。第一方面,本专利技术实施例提供了一种利用时序相关性进行IT故障根因分析的方法,其可行的技术方案包括如下:一种利用时序相关性进行IT故障根因分析的方法,所述方法包括:获取系统日志;抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据;基于量化假设检测自动提取所述时间序列数据的相关特征;当IT故障发生时,通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,其中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述IT故障的发生原因的依据。结合另一方面,在另一方面的一种可能出现的实现方式中,所述抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,包括:抽取所述系统日志的关键字段;对所述系统日志的关键指标参数进行统计得到所述系统日志的时间序列数据;其中,所述关键指标参数包括访问数量、权限更改、错误信息中的一种或两种以上的组合。结合另一方面,在另一方面的一种可能出现的实现方式中,所述抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,还包括:对所述关键字段进行参数化设置;对所述系统日志得到的参数化后的关键字段建立参数作用关系图;所述通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,包括:通过格兰杰因果关系对所述参数化后的关键字段进行检验。结合另一方面,在另一方面的一种可能出现的实现方式中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述IT故障的发生原因的依据,包括:通过格兰杰因果关系对所述参数化后的关键字段进行检验,得出参数化后的关键字段的因果关系量值;根据所述因果关系量值建立所述IT故障的定量因果关系图。结合另一方面,在另一方面的一种可能出现的实现方式中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述IT故障的发生原因的依据,还包括:确定所述定量因果关系图中最大的路径为IT故障传播路径。第二方面,本专利技术实施例还提供了一种利用时序相关性进行IT故障根因分析的装置,其可行的技术方案包括如下:所述装置包括:获取模块,用于获取系统日志;统计模块,用于抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据;自动提取模块,用于基于量化假设检测自动提取所述时间序列数据的相关特征;故障确定模块,用于当IT故障发生时,通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,其中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述IT故障的发生原因的依据。上述的装置,所述统计模块包括:抽取子模块,用于抽取所述系统日志的关键字段;统计子模块,用于对所述系统日志的关键指标参数进行统计得到所述系统日志的时间序列数据;其中,所述关键指标参数包括访问数量、权限更改、错误信息中的一种或两种以上的组合。上述的装置,所述统计模块还包括:参数化设置模块,用于对所述关键字段进行参数化设置;参数图建立模块,用于对所述系统日志得到的参数化后的关键字段建立参数作用关系图;所述故障确定模块还用于:通过格兰杰因果关系对所述参数化后的关键字段进行检验。上述的装置,所述故障确定模块还用于:通过格兰杰因果关系对所述参数化后的关键字段进行检验,得出参数化后的关键字段的因果关系量值;根据所述因果关系量值建立所述IT故障的定量因果关系图。上述的装置,所述故障确定模块,还包括:路径确定子模块,用于确定所述定量因果关系图中最大的路径为IT故障传播路径。本专利技术通过抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,建立格兰杰因果关系后通过计算图中各时间序列数据的相关特征之间的因果关系量值确定故障原因,并能够在格兰杰因果关系图中不断加入新的参数,实现了通过机器学习的方式自动化完成故障根因分析过程,帮助用户快速找出故障发生原因,减少故障诊断时间(MeanTimeToDiagonise,MTTD),使系统最快恢复正常。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。图1是根据一示例性实施例示出的一种利用时序相关性进行IT故障根因分析的方法的流程示意图。图2是根据一示例性实施例示出的一种利用时序相关性进行IT故障根因分析的方法的流程示意图。图3是根据一示例性实施例示出的一种利用时序相关性进行IT故障根因分析的方法的流程示意图。图4是根据一示例性实施例示出的一种利用时序相关性进行IT故障根因分析的装置的框图。图5是根据一示例性实施例示出的一种利用时序相关性进行IT故障根因分析的装置的框图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理,但是其中的许多步骤可以并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排,当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。本专利技术涉及一种利用时序相关性进行IT故障根因分析的方法及其对应的装置,其主要运用于企业IT系统在发生故障后及时排除网络故障的场景中,其基本思想是:抽取系统日志中的关键字段以作为时间序列数据,并对该时间序列数据进行相关特征的自动化提取,在IT系统发生故障时,使用格兰杰因果关系对时序相关特征进行检验,对图中因果关系量值最大的路径作为故障传播路径,并以此为根据作为解决该故障的方案基础,或者由故障知识数据库中匹配出最佳的故障解决方案,能够快速找出故障发生原因,减少故障诊断时间MTTD,使系统最快恢复正常。本实施例可适用于带有机器学习模块的IT本文档来自技高网...
利用时序相关性进行IT故障根因分析的方法及装置

【技术保护点】
一种利用时序相关性进行IT故障根因分析的方法,其特征在于,所述方法包括:获取系统日志;抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据;基于量化假设检测自动提取所述时间序列数据的相关特征;当IT故障发生时,通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,其中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述IT故障的发生原因的依据。

【技术特征摘要】
1.一种利用时序相关性进行IT故障根因分析的方法,其特征在于,所述方法包括:获取系统日志;抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据;基于量化假设检测自动提取所述时间序列数据的相关特征;当IT故障发生时,通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,其中,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述IT故障的发生原因的依据。2.根据权利要求1所述的方法,其特征在于,所述抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,包括:抽取所述系统日志的关键字段;对所述系统日志的关键指标参数进行统计得到所述系统日志的时间序列数据;其中,所述关键指标参数包括访问数量、权限更改、错误信息中的一种或两种以上的组合。3.根据权利要求1或2所述的方法,其特征在于,所述抽取所述系统日志的关键字段,对所述关键字段进行统计以得到系统日志的时间序列数据,还包括:对所述关键字段进行参数化设置;对所述系统日志得到的参数化后的关键字段建立参数作用关系图;所述通过格兰杰因果关系对所述时间序列数据的相关特征进行检验,包括:通过格兰杰因果关系对所述参数化后的关键字段进行检验。4.根据权利要求3所述的方法,其特征在于,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述IT故障的发生原因的依据,包括:通过格兰杰因果关系对所述参数化后的关键字段进行检验,得出参数化后的关键字段的因果关系量值;根据所述因果关系量值建立所述IT故障的定量因果关系图。5.根据权利要求4所述的方法,其特征在于,所述时间序列数据的各相关特征之间的因果关系量值的大小作为评价为所述...

【专利技术属性】
技术研发人员:饶琛琳梁玫娟
申请(专利权)人:北京优特捷信息技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1