The invention relates to an automatic marking system and method of fault indicators based on log log events include: according to the system level screening failure / error log, according to each failure / information fault log for each failure / fault log allocation failure / fault categories, according to each type of failure / fault categories to determine the effective time window performance the index data; for each type of failure / all performance data corresponding to effective time window of fault type of modeling, construction of the fault according to the fault index model; index model of automatic annotation performance index data are indicators of performance index data of fault. The invention can reduce the artificial fault index annotation is time-consuming, save time and manpower resources, reduce workload, convenient and fast fault diagnosis fault checking system administrator, can also according to the characteristics of the index system is estimated for a period of time is in a failure state, convenient and timely take corresponding measures.
【技术实现步骤摘要】
一种基于日志的故障指标自动标注方法与系统
本专利技术涉及分布式环境可靠性领域,特别涉及一种基于日志的故障指标自动标注方法与系统。
技术介绍
故障诊断是指:用于发现系统或系统组件中不正常现象的一种技术。随着软件系统的规模不断变大,逻辑变得更加复杂,故障诊断的难度也越来越大。一方面,大规模系统中不一定具备细致的监控能力;另一方面,由于一些容错机制的存在,故障有时并不会直观表现出来。故障诊断技术主要可以用于发现系统的不足。当前,故障诊断技术正不断融入新的计算技术和数学方法,包括人工智能、机器学习、随机过程、贝叶斯推断、图论等。下面列举主要的故障诊断技术及其优缺点:基于规则的技术,基于规则的技术主要通过将专家知识表示为一系列规则来进行故障诊断,规则是人为可扩展和可解释的,但这种技术不能诊断未知的错误,而且大量的知识库也不易维护;基于模型的技术,基于模型的技术将系统定义为数学表示,通过测试观察到的行为来验证是否满足模型,基于模型的技术适合诊断应用级别的问题,然而,构建模型需要对系统有非常深刻的理解;统计技术,统计技术通过对经验数据使用关联分析、对比和概率等理论来进行故障诊断,统计技术不需要对系统内部或者模型具备深入的了解,但是对于系统的非稳态(意料之外,情理之中)故障难以诊断,而这类非稳态故障对于大规模系统而言是很常见的;机器学习技术,机器学习技术采用聚类的方法识别模式,或者使用训练数据来确定系统状态是否健康,找出故障的潜在原因,机器学习技术可以自动地学习系统行为,但是当特征维度变大时,精确度会迅速下降;计数和阈值技术,计数和阈值技术可以诊断出短暂和间歇性错误,这种 ...
【技术保护点】
一种基于日志的故障指标自动标注系统,其特征在于,包括:日志收集模块、用于从分布式系统或单机计算机系统收集多条系统日志;指标采集模块、用于采集该分布式系统或该单机计算机系统中的性能指标数据;数据处理模块、用于首先根据该系统日志的事件等级筛选出失效/故障日志,其次根据每条该失效/故障日志的信息内容为每条该失效/故障日志分配失效/故障类别,最后根据每类该失效/故障类别确定该性能指标数据的有效时间窗口;离线建模模块、用于对每类该失效/故障类别的该有效时间窗口对应的所有该性能指标数据进行建模,构建故障指标模型;故障指标标注模块、用于根据该故障指标模型对该性能指标数据进行自动标注该性能指标数据是否为故障指标。
【技术特征摘要】
1.一种基于日志的故障指标自动标注系统,其特征在于,包括:日志收集模块、用于从分布式系统或单机计算机系统收集多条系统日志;指标采集模块、用于采集该分布式系统或该单机计算机系统中的性能指标数据;数据处理模块、用于首先根据该系统日志的事件等级筛选出失效/故障日志,其次根据每条该失效/故障日志的信息内容为每条该失效/故障日志分配失效/故障类别,最后根据每类该失效/故障类别确定该性能指标数据的有效时间窗口;离线建模模块、用于对每类该失效/故障类别的该有效时间窗口对应的所有该性能指标数据进行建模,构建故障指标模型;故障指标标注模块、用于根据该故障指标模型对该性能指标数据进行自动标注该性能指标数据是否为故障指标。2.如权利要求1所述的基于日志的故障指标自动标注系统,其特征在于,该指标采集模块,每隔一定时间间隔采集系统中的性能指标数据,该性能指标数据包括cpu利用率、内存使用率、磁盘读写带宽、IPC、缓存缺失率。3.如权利要求1所述的基于日志的故障指标自动标注系统,其特征在于,该数据处理模块包括:时间窗口划分模块、通过查询具有同类失效/故障类别的失效/故障日志的时间戳并结合预先设定的时间窗口阈值,确定各失效/故障类别的有效时间窗口,并通过查找该有效时间窗口内性能指标的时间戳,得到该有效时间窗口范围内的该性能指标数据。4.如权利要求1所述的基于日志的故障指标自动标注系统,其特征在于,该离线建模模块包括:汇总模块、用于将每类失效/故障类别的所有有效时间窗口所对应的性能指标数据汇总为故障指标组;模型构建模块、用于对每个该故障指标组中的性能指标数据,使用一类目标分类算法,构建出该失效/故障类别的故障指标模型。5.如权利要求1所述的基于日志的故障指标自动标注系统,其特征在于,该故障指标标注模块,通过计算该性能指标数据和该故障指标模型间局部离群概率,标注该性能指标数据...
【专利技术属性】
技术研发人员:任睿,殷岩,程杰超,詹剑锋,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。