一种日志去重处理方法及装置制造方法及图纸

技术编号:15639081 阅读:186 留言:0更新日期:2017-06-15 21:16
本申请涉及计算机技术领域,尤其涉及一种日志去重处理方法及装置,用以解决现有技术中存在的由于日志数量多而无法及时发现故障原因的问题。利用样本日志遍历预设存储空间中的日志,以样本日志的哈希值分别与遍历到的各个日志的哈希值进行比对,若相似,则更新与样本日志相似的日志对应的相似日志条数;若不相似,则存储该样本日志,并为样本日志设置初始化的统计信息,从而不需要对相似日志进行存储,而仅对不相似的日志进行存储,实现去重归并处理,减少了存储的日志的数量,降低了观察识别的难度,以便于及时发现故障原因。

【技术实现步骤摘要】
一种日志去重处理方法及装置
本申请涉及计算机
,尤其涉及一种日志去重处理方法及装置。
技术介绍
日志,是网络设备、系统及服务程序等在运作时产生的事件记录,用于以字符串的方式记载日期、时间、使用者及动作等相关操作的描述。在现有的分布式系统中,为了保证系统能够正常运行,需要对业务系统的运行状态进行监控,以便于在发生故障时能够及时通知开发以及运维人员进行维护、调试等管理。目前,主要通过浏览日志的信息内容的方式对业务系统的运行状态进行监控,然而,在业务系统的运行过程中,日志是连续产生的,且针对同一故障产生的日志数量很大,大多是由于可变参数的不同而出现的重复日志,致使工作人员不易对日志的信息内容进行观察,进而无法及时发现故障原因,降低维护效率。
技术实现思路
本申请实施例提供一种日志去重处理方法,用以解决现有技术中存在的由于日志数量多而无法及时发现故障原因的问题。本申请实施例还提供一种日志去重处理装置,用以解决现有技术中存在的由于日志数量多而无法及时发现故障原因的问题。本申请实施例采用下述技术方案:一种日志去重处理方法,包括:获取待去重处理的样本日志;检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志;若检测到与所述样本日志相比满足预设相似度条件的日志,则更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息,其中,所述统计信息至少包含相似日志条数;若未检测到与所述样本日志相比满足预设相似度条件的日志,则存储所述样本日志,并为所述样本日志设置初始化的统计信息。一种日志去重处理装置,包括:获取单元,用于获取待去重处理的样本日志;检测单元,用于检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志;更新单元,用于在检测到与所述样本日志相比满足预设相似度条件的日志时,更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息,其中,所述统计信息至少包含相似日志条数;存储单元,用于在未检测到与所述样本日志相比满足预设相似度条件的日志时,存储所述样本日志,并为所述样本日志设置初始化的统计信息。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:在本专利技术中,利用样本日志遍历预设存储空间中的日志,以样本日志的哈希值分别与遍历到的各个日志的哈希值进行比对,从而不需要对相似日志进行存储,而仅对不相似的日志进行存储,实现去重归并处理,减少了存储的日志的数量,降低了观察识别的难度,以便于及时发现故障原因。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本专利技术实施例一提供的一种日志去重方法的步骤示意图;图2为本专利技术实施例中通过服务接口传输预设存储空间中存储信息的示意图;图3为本专利技术提供的日志去重处理流程示意图;图4(a)-图4(c)为本专利技术所涉及的三张预设日志列表示意图;图5为本专利技术实施例二提供的一种日志去重处理装置结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。需要说明的是,本专利技术以下实施例中“预设存储空间”中以及“预设日志列表”中所涉及的日志均为由于故障而产生的错误、异常或警告类型的日志。以下结合附图,详细说明本申请各实施例提供的技术方案。实施例一如图1所示,为本专利技术实施例一提供的一种日志去重方法的步骤示意图,其中,该日志去重方法的执行主体可以为一种服务器,用以实现系统业务运行服务,具体地,该服务器可以为电脑、手机或者大型分布式计算机系统;该日志去重过程主要包括以下步骤:步骤11:获取待去重处理的样本日志。本专利技术中所涉及的样本日志可以理解为业务系统由于故障而产生的日志,主要包括错误、异常、警告这三类,而每一条日志可以包含时间信息、所处位置(具体至哪一文件夹、哪一行)、返回值以及日志类型等。在实际的业务系统运行过程中,会不间断的产生日志到kafka中,其中,kafka是专门用于进行日志处理的分布式消息队列。针对存入kafka中的日志进行故障识别,具体可根据读取每条日志中的日志类型来识别该日志是否为由故障而产生的日志,若识别到该日志中的日志类型为错误、异常、警告中的任一种,则提取该日志作为本专利技术方案中的样本日志,否则,识别为正常运行产生的日志,不作处理。步骤12:检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志,若检测到与所述样本日志相比满足预设相似度条件的日志,则执行步骤13,否则,执行步骤14。其中,该步骤12中所涉及的预设存储空间可以为执行主体中用户存储空间,用以临时存储一些所需数据,例如,本专利技术中用以存储去重归并后的日志。具体地,在本专利技术中,该步骤12可具体执行为以下步骤:第一步,根据Simhash算法计算样本日志的哈希值。Simhash算法是一种文档去重的哈希hash算法,其去重速度较快且高效。考虑到本专利技术中所涉及样本日志的日志信息包含有英文字母、数字以及特殊符号等字符串,虽然采用Simhash算法,但是,不同于现有技术中的文档分词方式,而是对Simhash算法进行了改进,利用空格、特殊字符等除数字和字母以外的字符对样本日志的日志信息这一字符串进行分割来实现分词处理,然后,对分割后的单词进行Simhash计算,得到该样本日志的哈希值(即hashcode)。举例说明:当前样本日志的日志信息为:“ConnectDBErrorIP:xx1Port:xx2”,按照本专利技术中的方式,采用空格对该日志信息进行分词处理,得到以下分词结果:分词1“Connect”,分词2“DB”,分词3“Error”,分词4“IP:xx1”,分词5“Port:xx2”;之后,按照现有的Simhash算法分配相应权重并计算出该样本日志的哈希值。通过改进后的Simhash算法对样本日志进行哈希值的计算,可提升该样本日志的哈希值的精准度,且能够较好的反映样本日志的性能,便于后续进行相似度匹配。第二步,将样本日志的哈希值与预设存储空间中日志的哈希值进行比对,确定预设存储空间中是否存在比对结果大于等于相似度阈值的日志。在该步骤中,通过上述确定的样本日志的哈希值,遍历预设存储空间中的所有日志,第一种情况是:预设存储空间还未存储日志,显然预设存储空间中不存在与样本日志相似的日志;第二种情况是:预设存储空间存储有至少一条日志,且样本日志的哈希值与预设存储空间中的任一条日志的哈希值比对后,都小于相似度阈值,则确定预设存储空间中不存在与样本日志相似的日志;第三种情况是:预设存储空间存储有至少一条日志,且样本日志的哈希值与预设存储空间中的其中一条日志的哈希值比对后,大于等于相似度阈值,则确定预设存储空间中存在与样本日志相似的日志。可选地,在本专利技术实施例中,考虑到日志信息的长度对日志的相似度比对影响较大,因此,可以根据样本日志的日志信息的长度确定合适的相似度阈值,具体地,考虑到日志信息的长度与其包含的可变参数的数量呈正相本文档来自技高网...
一种日志去重处理方法及装置

【技术保护点】
一种日志去重处理方法,其特征在于,包括:获取待去重处理的样本日志;检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志;若检测到与所述样本日志相比满足预设相似度条件的日志,则更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息,其中,所述统计信息至少包含相似日志条数;若未检测到与所述样本日志相比满足预设相似度条件的日志,则存储所述样本日志,并为所述样本日志设置初始化的统计信息。

【技术特征摘要】
1.一种日志去重处理方法,其特征在于,包括:获取待去重处理的样本日志;检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志;若检测到与所述样本日志相比满足预设相似度条件的日志,则更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息,其中,所述统计信息至少包含相似日志条数;若未检测到与所述样本日志相比满足预设相似度条件的日志,则存储所述样本日志,并为所述样本日志设置初始化的统计信息。2.如权利要求1所述的方法,其特征在于,检测预设存储空间中是否存在与所述样本日志相比满足预设相似度条件的日志,具体包括:根据Simhash算法确定所述样本日志的哈希值;将所述样本日志的哈希值与所述预设存储空间中日志的哈希值进行比对,确定所述预设存储空间中是否存在比对结果大于等于相似度阈值的日志。3.如权利要求2所述的方法,其特征在于,根据Simhash算法确定所述样本日志的哈希值,具体包括:利用除数字和字母以外的字符对所述样本日志的日志信息进行分词处理;根据Simhash算法计算分词处理后的样本日志的哈希值。4.如权利要求1所述的方法,其特征在于,所述方法还包括:采用JSON的方式对预设存储空间中存储的信息进行数据转换;通过服务接口将转换后的信息对应的内容进行展示。5.如权利要求4所述的方法,其特征在于,当未检测到与所述样本日志相比满足预设相似度条件的日志时,所述方法还包括:发出报警消息;所述统计信息还包含:存储所述日志时的初始时间以及更新相似日志条数的更新时间;当检测到与所述样本日志相比满足预设相似度条件的日志之后,且在更新与所述样本日志相比满足预设相似度条件的日志对应的统计信息之前,所述方法还包括:根据所述日志对应的统计信息中的初始时间以及更新时间,判断所述更新时间是否落入当前报警周期内,若是,则不作处理,否则,发出报警消息。6.一种日志去重处理装置,其特征在于,包括:获取...

【专利技术属性】
技术研发人员:邱帅兵徐长龙任文越
申请(专利权)人:微梦创科网络科技中国有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1