日志处理方法、装置、设备和存储介质制造方法及图纸

技术编号:27975661 阅读:29 留言:0更新日期:2021-04-06 14:09
本公开实施例涉及一种日志处理方法、装置、设备和存储介质,其中,该方法可以包括:获取待处理日志,并对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;计算每个候选日志分类集合中各日志的熵值;其中,熵值用于表征日志的信息量;根据熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到第一预设数量的目标日志分类集合;计算第一预设数量的目标日志分类集合对应的日志分布稳定度;如果日志分布稳定度大于稳定度阈值,且重新聚类得到的集合数量大于第一预设数量,则进行日志预警处理。本公开实施例减少了日志预警处理的时间延迟,基于日志分布稳定度和重新聚类得到的分类数量进行双重验证,保证了日志预警的准确性。

【技术实现步骤摘要】
日志处理方法、装置、设备和存储介质
本公开涉及数据处理
,尤其涉及一种日志处理方法、装置、设备和存储介质。
技术介绍
系统日志通常是无结构的文本数据,在使用数据挖掘算法对系统日志建立模型训练之前,需要使用日志解析算法将原始的日志数据结构化。日志解析技术是日志挖掘的关键一环。传统的日志解析算法包括正则表达式匹配方式、基于源代码的方式、或者基于规则式的方式,这些方法对专家经验知识依赖性强,当新的日志格式出现时,解析规则容易变得不适用。因此,分析服务器日志变化并及时预警已经成为系统管理员评估系统运行状况的重要手段之一。针对海量日志实时更新场景下,现有方案在日志预警处理过程中存在较长的时间延迟,不能满足日志预警的处理需求。
技术实现思路
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开实施例提供了一种日志处理方法、装置、设备和存储介质。第一方面,本公开实施例提供了一种日志处理方法,包括:获取待处理日志,并对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;计算每个候选日志分类集合中各日志的熵值;其中,所述熵值用于表征日志的信息量;根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度;如果所述日志分布稳定度大于稳定度阈值,则对所述待处理日志重新进行所述聚类处理,确定重新聚类得到的集合数量;如果所述重新聚类得到的集合数量大于所述第一预设数量,则进行日志预警处理。第二方面,本公开实施例还提供了一种日志处理装置,包括:日志聚类模块,用于获取待处理日志,并对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;熵值计算模块,用于计算每个候选日志分类集合中各日志的熵值;其中,所述熵值用于表征日志的信息量;日志筛选模块,用于根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;分布稳定度计算模块,用于计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度;重新聚类模块,用于如果所述日志分布稳定度大于稳定度阈值,则对所述待处理日志重新进行所述聚类处理,确定重新聚类得到的集合数量;日志预警模块,用于如果所述重新聚类得到的集合数量大于所述第一预设数量,则进行日志预警处理。第三方面,本公开实施例还提供了一种电子设备,包括存储器和处理器,其中:所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述电子设备实现本公开实施例提供的任一日志处理方法。第四方面,本公开实施例还提供了一种计算机可读存储介质,所述存储介质中存储有计算机程序,当所述计算机程序被计算设备执行时,使得所述计算设备实现本公开实施例提供的任一日志处理方法。本公开实施例提供的技术方案与现有技术相比至少具有如下优点:在本公开实施例中,针对海量日志实时更新的场景下,在获取到待处理日志后,依次对待处理日志进行聚类和熵值计算,然后针对每个日志分类筛选出熵值较大的日志,作为具有代表性的日志,参与日志分布稳定度的计算,进而根据日志分布稳定度和重新聚类得到的分类数量确定是否进行日志预警处理,相比于日志预警处理过程对全量日志进行处理的情况,提高了日志处理效率,而且熵值计算和日志分布稳定度计算耗费的系统资源均较少,可以实现实时计算,可以及时检测日志分布是否发生变化,因此,本方案减少了日志预警处理的时间延迟;同时基于熵值进行日志筛选,保证了基于筛选后的日志进行日志处理的结果准确性;最后基于日志分布稳定度和重新聚类得到的分类数量进行双重验证,进一步保证了日志预警的准确性。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本公开实施例提供的一种日志处理方法的流程图;图2为本公开实施例提供的另一种日志处理方法的流程图;图3为本公开实施例提供的一种日志处理装置的结构示意图;图4为本公开实施例提供的一种电子设备的结构示意图。具体实施方式为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。图1为本公开实施例提供的一种日志处理方法的流程图,可以适用于如何对日志进行处理,以确定是否进行日志预警处理的情况。该日志处理方法可以由日志处理装置执行,该装置可以采用软件和/或硬件实现,并可集成在任意具有计算能力的电子设备上,例如终端或服务器等。如图1所示,本公开实施例提供的日志处理方法可以包括:S101、获取待处理日志,并对待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合。在本公开实施例中,可以从日志源中实时获取待处理日志,然后对待处理日志中的各日志进行向量化表示,得到各日志的日志向量,然后基于日志向量,对待处理日志进行聚类处理。聚类处理过程中采用的聚类算法可以是任意可用的聚类算法,例如K-Means(K均值)聚类算法等,聚类得到的每个候选日志分类集合均对应一个聚类中心。S102、计算每个候选日志分类集合中各日志的熵值;其中,熵值用于表征日志的信息量。熵作为一种度量标准,可以用于衡量日志分布的混乱程度。日志的熵值越大,表示该日志的信息量越大,进而将该日志用于日志分析处理的价值越大。关于熵值的计算,可以利用现有技术中任意可用的计算方式实现,本公开实施例不作具体限定。示例性的,假设对待处理日志进行聚类处理,预测得到k个聚类簇,即第一预设数量为k,一个聚类簇对应一个候选日志分类集合,各个候选日志分类集合的聚类中心点可以表示为[k1,k2...kk],则每个候选日志分类集合中各条日志xi距离各个聚类中心点的距离可以表示为[d1,d2...dk],示例性的,该距离可以是欧式距离,相应的,各条日志xi被预测为各类别的概率可以表示为[p1,p2...pk],其中,各个概率值可以表示如下:概率值中的下标i=1、2、3……k;进而,根据以下熵值计算公式H(xi),可以得到各条日志xi的熵值。S103、根据熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到第一预设数量的目标日志分类集合。由于日志数量通常较大,而且实时新增,如果直接基于本文档来自技高网...

【技术保护点】
1.一种日志处理方法,其特征在于,包括:/n获取待处理日志,并对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;/n计算每个候选日志分类集合中各日志的熵值;其中,所述熵值用于表征日志的信息量;/n根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;/n计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度;/n如果所述日志分布稳定度大于稳定度阈值,则对所述待处理日志重新进行所述聚类处理,确定重新聚类得到的集合数量;/n如果所述重新聚类得到的集合数量大于所述第一预设数量,则进行日志预警处理。/n

【技术特征摘要】
1.一种日志处理方法,其特征在于,包括:
获取待处理日志,并对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合;
计算每个候选日志分类集合中各日志的熵值;其中,所述熵值用于表征日志的信息量;
根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;
计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度;
如果所述日志分布稳定度大于稳定度阈值,则对所述待处理日志重新进行所述聚类处理,确定重新聚类得到的集合数量;
如果所述重新聚类得到的集合数量大于所述第一预设数量,则进行日志预警处理。


2.根据权利要求1所述的方法,其特征在于,所述计算所述第一预设数量的目标日志分类集合对应的日志分布稳定度,包括:
按照日志向量维度,将所述第一预设数量的目标日志分类集合中的日志划分至第三预设数量的日志区间;
计算每个日志向量维度下每个日志区间对应的当前日志占比;
获取每个日志向量维度下每个日志区间对应的历史日志占比;其中,所述历史日志占比是将所述第一预设数量的历史日志分类集合按照所述日志向量维度划分至所述第三预设数量的日志区间后得到;
根据所述当前日志占比和所述历史日志占比,计算每个日志向量维度下的日志分布稳定度;
计算各个日志向量维度下的日志分布稳定度的均值,作为所述第一预设数量的目标日志分类集合对应的日志分布稳定度。


3.根据权利要求1所述的方法,其特征在于,所述对所述待处理日志进行聚类处理,得到第一预设数量的候选日志分类集合,包括:
按照预设日志解析规则,确定所述待处理日志中各日志所属的勿连约束集合;
基于所述勿连约束集合,对所述待处理日志进行聚类处理,得到所述第一预设数量的候选日志分类集合;其中,属于不同勿连约束集合中的日志聚类至不同的候选日志分类集合中。


4.根据权利要求1所述的方法,其特征在于,所述根据所述熵值,从每个候选日志分类集合中筛选第二预设数量的日志,得到所述第一预设数量的目标日志分类集合,包括:
对每个候选日志分类集合中的日志按照熵值递减顺序进行排序;
基于每个候选日志分类集合中排序在前的所述第二预设数量的日志,得到所述第一预设数量的目标日志分类集合;或者,
从每个候选日志分类集合中确定所述熵值超过熵值阈值的所述第二预设数量的日志,得到所述第一预设数量的目标日志分类集合。


5.根据权利要求3所述的方法,其特征在...

【专利技术属性】
技术研发人员:赵旭王卓周晓阳
申请(专利权)人:北京天融信网络安全技术有限公司北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1