【技术实现步骤摘要】
基于鲁棒的日志模板提取更新方法及系统
[0001]本专利技术属于日志模式识别的
,具体涉及一种基于鲁棒的日志模板提取更新方法及系统
。
技术介绍
[0002]对于银行业而言,由于受到严格的监管,大部分银行日志数据具备日志数据详细,日志质量高的特点
。
然而,“信息太多等于没有信息”,若无法对日志信息进行有效的管理,丰富且规范的日志数据将发挥不出其重要作用
。
通过日志模式识别算法自动实现模式识别是发挥日志数据作用的重要环节,助力企业实现“用数据说话,用数据管理,用数据决策”。
[0003]1)
用数据说话:在业务系统中,每日生成的日志数量往往是亿量级的,而打印这些日志的代码却往往只有几十条或者几百条
。
对日志进行模式模式识别,并根据日志模板对日志进行压缩合并,可以有效的降低日志数据的信息熵,实现业务人员对日志数据的感知,进而对每个模板的日志数量或字段占比等进行统计,将日志数据转化为有效信息
。
[0004]2)
用数据管理 ...
【技术保护点】
【技术特征摘要】
1.
一种基于鲁棒的日志模板提取更新方法,其特征在于,包括如下步骤:步骤
1、
获取待模式识别的日志,对其进行预处理得到日志序列;步骤
2、
对日志序列进行提炼得到伪日志模板,以该伪日志模板为索引进行搜索得到该索引下的所有模板,并将其作为候选模板;步骤
3、
基于相似度和长度差,将日志序列与候选模板进行匹配;步骤
4、
根据匹配后的结果对模板库中的模块进行更新
。2.
根据权利要求1所述的基于鲁棒的日志模板提取更新方法,其特征在于,步骤1具体包括:步骤
1.1、
对获取的日志提取其内容部分;步骤
1.2、
通过正则或者命名实体识别的方法识别出日志内容部分的特殊字符并将其替换成特定形式的符号;步骤
1.3、
对经过步骤
1.2
处理后的日志内容进行分词得到日志序列
。3.
根据权利要求1所述的基于鲁棒的基于鲁棒的日志模板提取更新方法,其特征在于,步骤2获得伪日志模板的方式为:构建关键词字典,遍历日志序列中的每个单词,若该单词的小写形式在关键词字典中,则将该单词提取出来,并按照顺序通过连接符连接,得到伪日志模板
。4.
根据权利要求3所述的的基于鲁棒的日志模板提取更新方法,其特征在于,关键词字典包括描述系统行为的关键性单词
、
计算机领域的专有名词
、
动词以及表示系统状态的词
。5.
根据权利要求1所述的基于鲁棒的日志模板提取更新方法,其特征在于,步骤3匹配方法为:计算日志序列与候选模板之间的长度差,若长度差大于阈值,则放弃该候选模板;若长度差小于阈值,则计算两者的杰卡德相似度,并从长度差小于阈值的所有候选模板中筛选出与日志序列相似度最大的候选模板,并将该候选模板与日志序列的杰卡德相似度与相似度阈值比较,若大于相似度阈值,则认为成功为该日志匹配到合适的模板,即该候选模板为该条日志的模板并将其输出;若小于相似度阈值,则认为...
【专利技术属性】
技术研发人员:石龙,李耀,彭磊,
申请(专利权)人:武汉众邦银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。