一种数据中心设备日志模板在线提取方法技术

技术编号:36437143 阅读:55 留言:0更新日期:2023-01-20 22:51
本申请涉及一种数据中心设备日志模板在线提取方法,包括如下步骤:将历史日志序列送入预先设定好的不同线程中;按照降序建立词频表;将排好序的日志序列构造成链表;在每个线程中构成多棵FT

【技术实现步骤摘要】
一种数据中心设备日志模板在线提取方法


[0001]本申请涉及数据中心数据挖掘领域,尤其涉及一种数据中心设备日志模板在线提取方法。

技术介绍

[0002]随着现代计算机技术的发展,社会的信息化程度在不断提高,越来越多的领域受到了更为全面的监测与分析。数据中心内存在着大量的网络和计算机设备,这些设备会产生大量的日志记录,这些日志反映了设备的运行信息,是设备状态监控过程中极其有价值的数据资源。为了通过数据挖掘或机器学习的方法对日志记录中所隐含的信息进行挖掘,需要对日志记录进行日志模板提取,将非结构化的信息转换为结构化的信息。
[0003]对于日志提取,传统的聚类算法需要较多的历史日志数据,并且只能离线处理,考虑到数据中心设备对在线监控和管理的需求,并且随着设备和软件服务的迭代升级或配置变更,会不断的出现新的日志类型,因此需要一种在线的日志解析方法。

技术实现思路

[0004]本申请实施例针对通过数据挖掘或机器学习的方法对日志记录中所隐含的信息进行挖掘的需求提供一种数据中心设备日志模板在线提取方法,该方法将FT

Tree树的模板提取与Jaccard相关系数相结合,提供了一种在线的日志提取方法,同时,通过多线程、利用模板前缀树特性和日志字符串数量的特点,使模板提取的实时性和准确性得到了提升。
[0005]为实现上述目的,本申请提供如下技术方案:本申请实施例提供一种数据中心设备日志模板在线提取方法,包括如下步骤:步骤1:读取历史日志数据,根据读入的历史日志首单词不同,将历史日志序列送入预先设定好的不同线程中;步骤2:在每个线程中,遍历全部历史日志数据,获得各个单词的词频,按照降序建立词频表;步骤3:再次遍历日志数据,依据词频表对每条日志序列进行排序,并将排好序的日志序列构造成链表,每个链表的第一个节点即是日志序列中出现频次最高的单词;步骤4:依据各链表之间是否共享前缀,将链表组合成多叉树,并按照每个节点的叶子节点数进行剪枝,当叶子节点的数量大于阈值常量,就代表此子节点下的叶子节点为参数变量,因此可以将叶子节点全部删去,最终在每个线程中构成多棵FT

Tree树;步骤5:FT

Tree树是乱序的日志模板类型,然后将日志模板调整为正常的语序;步骤6:采用多线程的方式并由首个单词决定日志序列分属到某一个线程中时,当首个单词为参数时,可能会出现相同的日志类型因为参数的不同而分到不同的模板中,计算不同线程中日志模板间的Jaccard相似度系数,当相似度系数大于阈值常量时,代表
这两条模板是相同类型,将这两条日志模板合并,最后构成日志模板;步骤7:将合并后的日志模板构造成前缀树的形式;步骤8:在线读取日志序列并记为,将日志消息分割成单个单词的形式;步骤9:首先在日志模板前缀树中查找消息类型,然后再通过日志序列字符串的长度,进一步缩小搜索的范围,最后剩余的过渡日志模板为;步骤10:计算与中每个日志模板的Jaccard相关度系数,并选取其中的最大值为候选模板;步骤11:如果大于设定的阈值时,则代表该日志属于此类模板,然后判断与此模板除参数位置*外是否完全相同,如果相同则不做处理,如果不同,则更新过渡日志模板,并以此更新日志模板,如果小于设定的阈值时,则将作为新的模板加入中,同时更新前缀树。
[0006]所述步骤6中对各线程产生的日志模板进行合并的条件是依据Jaccard相关度系数大于预先设定的阈值:数大于预先设定的阈值:,其中A代表某一线程产生的日志模板,B代表另一线程产生的日志模板,如果此式成立,代表两个线程中的日志模板类似,可以进行合并。
[0007]所述步骤10中候选模板的选择中的条件是依据Jaccard相关度系数大于预先设定的阈值: ,其中,代表新读入的日志序列,代表缩小范围后剩余的过渡日志模板,;所对应的即为候选日志模板类型。
[0008]所述步骤9中依据模板前缀树的特性,过滤掉一部分完全不匹配的日志模板后,剩下的日志模板为,通过计算输入的日志序列的单词个数
将其记为,并与中的日志模板进行比较,进一步缩小范围。计算中每一个日志模板的单词个数,记为,将与进行比较,以此得到最后的过渡日志模板,满足的条件为:;满足上述条件的值所对应的最终组成过渡日志模板。
[0009]所述步骤11中日志模板的更新采用读取的日志序列减去与过渡日志模板的交集,差集为参数用表示,最后将差集用*代替:。
[0010]与现有技术相比,本专利技术的有益效果是:1.在FT

Tree树构建日志模板时,通过使用多线程的方式可以同时构建多棵FT

Tree树,然后在生成FT

Tree树后,通过计算不同线程中日志模板间的Jaccard相关系数来进行日志模板的合并,以此解决可能会出现相同的日志类型因为参数的不同而分到不同的模板中这一问题,同时因为采用多线程的方式,大大提高了依据历史日志构建日志模板的速度;2.通过采用Jaccard相关系数作为相似度度量的准则来判断日志序列所属的日志种类,与LCS和simhash两种方式相比,时间复杂度更低,通过依据模板前缀树和日志字符串的数量能够大大缩小新输入的日志序列和日志模板的比对次数,大大提高了新日志进入后的日志模板的提取速度,更能满足在线提取这一要求;3.在更新模板时通过采用日志序列减去其与所对应的日志种类的交集的方式,充分利用了Jaccard已经计算出的交集这一数据,提高了日志更新的速率。
附图说明
[0011]为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0012]图1是本申请实施例的方法流程示意图。
具体实施方式
[0013]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被
定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0014]术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0015]下面结合图1,介绍本申请的一种数据中心设备日志模板在线提取方法,包括以下具体步骤:步骤1:读取历史日志数据,根据读入的历史日志首单词不同,将历史日志序列送入预先设定好的不同线程中;步骤2:在每个线程中,遍历全部历史日志数据,获得各个单词的词频,按照降序建立词频表;步骤3:再次本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据中心设备日志模板在线提取方法,其特征在于,包括如下步骤:步骤1:读取历史日志数据,根据读入的历史日志首单词不同,将历史日志序列送入预先设定好的不同线程中;步骤2:在每个线程中,遍历全部历史日志数据,获得各个单词的词频,按照降序建立词频表;步骤3:再次遍历日志数据,依据词频表对每条日志序列进行排序,并将排好序的日志序列构造成链表,每个链表的第一个节点即是日志序列中出现频次最高的单词;步骤4:依据各链表之间是否共享前缀,将链表组合成多叉树,并按照每个节点的叶子节点数进行剪枝,当叶子节点的数量大于阈值常量,就代表此子节点下的叶子节点为参数变量,因此可以将叶子节点全部删去,最终在每个线程中构成多棵FT

Tree树;步骤5:FT

Tree树是乱序的日志模板类型,然后将日志模板调整为正常的语序;步骤6:采用多线程的方式并由首个单词决定日志序列分属到某一个线程中时,当首个单词为参数时,可能会出现相同的日志类型因为参数的不同而分到不同的模板中,计算不同线程中日志模板间的Jaccard相似度系数,当相似度系数大于阈值常量时,代表这两条模板是相同类型,将这两条日志模板合并,最后构成日志模板;步骤7:将合并后的日志模板构造成前缀树的形式;步骤8:在线读取日志序列并记为,将日志消息分割成单个单词的形式;步骤9:首先在日志模板前缀树中查找消息类型,然后再通过日志序列字符串的长度,进一步缩小搜索的范围,最后剩余的日志模板称为过渡日志模板;步骤10:计算与中每个日志模板的Jaccard相关度系数,并选取其中的最大值为候选模板;步骤11:如果大于设定的阈值时,则代表该...

【专利技术属性】
技术研发人员:庄严董亮李德识李想郭岳梁源黄超廖荣涛郭兆丰周正朱兆宇胡耀东柯旺松周蕾贺亮徐宁罗弦胡欢君邱爽童永飞
申请(专利权)人:武汉大学国网湖北送变电工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1