基于日志关键词生成KPI曲线并标记波段特征的方法技术

技术编号:33251188 阅读:25 留言:0更新日期:2022-04-27 18:13
本发明专利技术公布了基于日志关键词生成KPI曲线并标记波段特征的方法,根据日志中的高频关键词先生成日志KPI曲线,再将KPI曲线分割为若干段等长的波段,根据波段的非时间维度聚类成多个簇,提取各个簇的基波,比较各个簇的各波段数据与基波的相似度,找出各个簇的分组边界线,将各个簇的各波段数据分组,提取各簇中连续同类波段的总时间长度,取总时间长度的最大值作为滑动窗口宽度。该窗口用于分割KPI曲线,使分割后的各窗口中波段容易聚类归类,利于将对整KPI曲线的迅速成由不同类型波段组成的波段链,然后对单独监测指标的KPI曲线进行周期检测和类型检测标记标签,再利用该窗口分割单独的KPI曲线,利用基波KPI曲线内的波段进行分组加标签。组加标签。组加标签。

【技术实现步骤摘要】
基于日志关键词生成KPI曲线并标记波段特征的方法


[0001]本专利技术涉及人工智能
,尤其涉及基于日志关键词生成KPI曲线并标记波段特征的方法。

技术介绍

[0002]异常点检测(又称为离群点检测)是找出其行为不同于预期对象的一个检测过程,这些对象被称为异常点或者离群点。异常检测方式通常包括基于统计的模型、基于距离的模型、线性变换的模型、非线性变换的模型、机器学习的模型等。
[0003]KPI(key performance indicators)指的是对服务、系统等对象的监控指标 (如网络中的延迟、吞吐量等)。其存储的形式是按其发生的时间先后顺序排列而成的数列,也就是我们通常所说的时间序列。时间序列的异常检测就是通过历史的数据分析,查看当前的数据是否发生了明显偏离了正常的情况。KPI 数据异常检测有着十分重要的意义:通过实时的监控KPI数据,发现KPI数据存在的异常,及时进行相应处理,从而保证应用的正常运行。
[0004]通过对KPI数据设置阈值来进行实时异常检测的方法十分普遍,然而针对系统日志进行实时异常检测的方法还本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.基于日志提取关键词的方法,其步骤包括:步骤F1.设置训练句子组成的训练句子集,同一工控系统中工控设备基于监测指标获得故障日志,将故障日志中的语料分别与各训练句子组成待处理句子对,并计算相似度,删除相似度低于阈值一的语料;步骤F2.对步骤F1中的剩余语料进行分词,生成由多个特征词组成的分词队列,并对多个特征词标注词性,获得语料的词性队列;步骤F3.若词性队列含有对应特殊词性的多个特殊特征词,则利用命名实体识别模型从多个特殊特征词中获得命名实体的边界及类别,将词性队列中特殊特性词的词性更新为命名实体的边界及类别,获得更新后的词性队列,其中,特殊词性包括:数词、时间词;步骤F4.根据F3对剩余语料的标注对剩余语料分类,统计各类别词性队列的出现频次,降序排序,挑选出排序大于阈值二的词性队列,统计各类别词性队列中各种:动词、名词、专有名词的出现频次,并进行降序排序,根据排序阈值依次从上述两种排序中筛选出排名靠前的两种词性队列集合,提取两种词性队列集合的交集对应的语料,构建真训练集;步骤F5.从真训练集的语料中筛选出含有词性标注组合为[n,v,n]的分词队列,n表示名词的词性,v表示动词的词性,并从中提取出词性为名词或专有名词的第一个和第二个分词分别作为事件一和事件二,形成事件元组;步骤F6.基于现有的故障事件关系表,使用Snowball算法发现事件元组的事件关联规则,根据事件关联规则发现事件元组中的关联事件组,即生成日志关键事件关系表;步骤F7.然后按步骤F5处理步骤F3获得的词性队列,得到真事件元组,重复步骤F6获得真事件元组的日志关键事件关系表,直至步骤F6收敛;步骤F8.将日志关键事件关系表中各事件作为关键词,统计各关键词的频次c
i
,i表示关键词的序号,将所有关键词对应的In(c
i
)组成一个集合,若In(c
i
)低于该集合的三西格玛下限则删除对应的关键词,保留的关键词作为关键词。2.根据权利要求1所述的方法,其特征在于,步骤F1中计算相似度包括以下步骤:基于预构建的语料库对句子对中的句子分别进行分词,其中,预构建的语料库包括行业语料库和普通语料库;将分词后句子的各特征词转化为词向量,并使用余弦相似度分别计算各句子对的相似度,若相似度低于阈值一则删除该语料。3.基于权利要求2所述的方法聚类生成KPI的方法,在所述步骤F8之后还包括:步骤S1.以各关键词每分钟出现的次数作为监测指标,建立各个关键词KPI曲线;步骤S2.每个关键词KPI曲线相互使用NCC算法计算两两相似度,并展开成对角的相似度矩阵,将相似度填入相似度矩阵,矩阵中行和列序号为关键词KPI曲线的编号,相似度矩阵的行数和列数为关键词KPI曲线的数量,相似度矩阵中的数值为各关键词KPI曲线之间的相似度;步骤S3.使用谱聚类算法根据上述的相似度矩阵输出不同簇类,对不同簇类标记不同的日志关键事件标签;步骤S4.合并统计同一类日志关键事件标签在同一时间段出现的次数取频次,得到各日志关键事件标签的日志直方图。4.根据权利要求3所述的方法,其特征在于,步骤S1~S2之间还包括:使用高斯核平滑处
理各个关键词KPI曲线。5.根据权利要求3所述的方法,其特征在于,步骤F6包括:步骤C1.使用现有的故障事件关系表,匹配事件元组中包含故障事件关系表中的事件的队列,并生成模板;模板的格式为五元组形式,分别为<left>,事件1类型,<middle>,事件2类型,<right>;len为可任意设定长度,<left>为事件1左边len个词汇的向量表示,<middle>为事件1和事件2间的词汇向量表示,<right>为事件右边len个词汇的向量表示;步骤C2.对生成的模板采用聚类,将相似度大于阈值三的模板聚为一类,利用平均的方法生成新的模板,加入用来存储模板的规则库;由步骤C2可知模板的格式可记为,E1、E2分别表示模板P的事件1类型和事件2类型,表示E1左边3个词汇长度的向量表示,表示E1,E2之间词汇的向量表示,表示E2右边三个词汇长度的向量表示,模板间的相似度计算,模板1:,模板2:,若满足条件,即满足模板P1的事件1类型E1与模板P2的事件1类型E
’1相同且模板P1的事件2类型E2与模板P2的事件2类型E
’2相同,则模板P1与模板P2的相似度可由计算得,μ1μ2μ3为权重,因对模板间相似度计算结果影响较大,可设置μ2>μ1>μ3;若不满足条件,则模板P1与模板P2的相似度可记为0;步骤C3.逐一将步骤C1获得的事件元组的模板与规则库中的模板进行相似度计算,相似度小于阈值三的舍弃,相似度大于阈值三的模板中的事件加入日志关键事件关系表中替换故障事件关系表;步骤C4.重复步骤C1~C3,直至经步骤C3处理后没有可舍弃的模板,即无法发现新的事件元组或规则。6.根据权利要求5所述的方法,其特征在于,步骤F7替换为:然后按步骤F5处理步骤F3获得的词性队列,得到真事件元组,重复步骤C1~C3获得真事件元组的日志关键事件关系表,直至步骤C3收敛,且步骤C3中舍弃相似度小于阈值四的模板。7.根据权利要求3~6任一项所述的方法,其特征在于,步骤S4之后还包括:使用高斯核平滑处理日志直方图得...

【专利技术属性】
技术研发人员:戴曦乐绪鑫张庆
申请(专利权)人:三峡智控科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1