一种日志压缩和分析的方法、系统、设备和存储介质技术方案

技术编号:38587923 阅读:6 留言:0更新日期:2023-08-26 23:29
本发明专利技术提供一种日志压缩和分析的方法、系统、设备和存储介质,方法包括:响应于生成初始日志,对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理;确定初步处理后的所述初始日志的文本结构,并对相关语句进行聚合处理;通过自然语言表达式对聚合处理后的日志进行迭代以生成表达式;以及将表达式进行整合以形成分析报告并输出。本发明专利技术通过textrank算法对日志内容进行关键词、关键语句抽取、再使用自然语言处理相关方法结合代码对日志进行分析,方便运维人员对大规模分布式存储中的日志进行存储、分析。分析。分析。

【技术实现步骤摘要】
一种日志压缩和分析的方法、系统、设备和存储介质


[0001]本专利技术涉及日志处理领域,更具体地,特别是指一种日志压缩和分析的方法、系统、设备和存储介质。

技术介绍

[0002]分布式存储集群规模逐渐增大,每天将产生数百GB的日志信息。这些日志会占用较大的存储资源,同时海量的日志对运维人员来说难以分析处理。当前普遍的解决方式为对日志进行压缩、上传至另外的服务器或者定时进行清理删除。针对日志分析处理主要采用关键词判断、文本标注对比的方式进行分析。使用传统的日志压缩,压缩比率较小,保留无效信息较多,若采用定时清理的方法,可能无法尽可能多的保留日志信息。日志分析中若采用关键词判断相关方法进行分析,会有效率较低、非专业人员难以理解等问题。

技术实现思路

[0003]有鉴于此,本专利技术实施例的目的在于提出一种日志压缩和分析的方法、系统、计算机设备及计算机可读存储介质,本专利技术使得分布式存储的日志量降低,减少日志空间降低成本,可保留更多的日志以便于问题的追踪;通过自然语言处理的日志,易于运维人员理解日志内容,快速分析问题,并及时处理潜在问题。
[0004]基于上述目的,本专利技术实施例的一方面提供了一种日志压缩和分析的方法,包括如下步骤:响应于生成初始日志,对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理;确定初步处理后的所述初始日志的文本结构,并对相关语句进行聚合处理;通过自然语言表达式对聚合处理后的日志进行迭代以生成表达式;以及将表达式进行整合以形成分析报告并输出。
[0005]在一些实施方式中,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:通过使用相同关键词和时间坐标的方式将相同的日志抽取只保留一份,并将重复日志删除。
[0006]在一些实施方式中,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:将日志文本内容分割成句,根据语料库将分割成句的文本进行分词,并将停用词进行过滤。
[0007]在一些实施方式中,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:根据词向量的维度、上下文最大距离、迭代次数、步长计算各个词语的权重以生成词向量。
[0008]在一些实施方式中,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:根据各个词语的权重计算语句的关键程度,并依据日志等级对所述语句进行排序,根据预设的摘要比率对排序后的语句进行保留,并对保留的词语进行词性标注。
[0009]在一些实施方式中,所述通过自然语言表达式对聚合处理后的日志进行迭代以生
成表达式包括:针对异常信息,按照记录主体、异常类型、消息内容的顺序,以自然语言的主谓宾逻辑,使用标注的词性生成推导,并按照预设的连接词库与规则对推导的内容进行连接。
[0010]在一些实施方式中,所述方法还包括:抽取异常打印的非结构化日志的关键信息以拼接整理修复为结构化日志,并将所述结构化日志转化为自然语言。
[0011]本专利技术实施例的另一方面,提供了一种日志压缩和分析的系统,包括:抽取模块,配置用于响应于生成初始日志,对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理;聚合模块,配置用于确定初步处理后的所述初始日志的文本结构,并对相关语句进行聚合处理;表达模块,配置用于通过自然语言表达式对聚合处理后的日志进行迭代以生成表达式;以及输出模块,配置用于将表达式进行整合以形成分析报告并输出。
[0012]本专利技术实施例的又一方面,还提供了一种计算机设备,包括:至少一个处理器;以及存储器,所述存储器存储有可在所述处理器上运行的计算机指令,所述指令由所述处理器执行时实现如上方法的步骤。
[0013]本专利技术实施例的再一方面,还提供了一种计算机可读存储介质,计算机可读存储介质存储有被处理器执行时实现如上方法步骤的计算机程序。
[0014]本专利技术具有以下有益技术效果:使得分布式存储的日志量降低,减少日志空间降低成本,可保留更多的日志以便于问题的追踪;通过自然语言处理的日志,易于运维人员理解日志内容,快速分析问题,并及时处理潜在问题。
附图说明
[0015]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
[0016]图1为本专利技术提供的日志压缩和分析的方法的实施例的示意图;
[0017]图2为本专利技术提供的日志压缩和分析的系统的实施例的示意图;
[0018]图3为本专利技术提供的日志压缩和分析的计算机设备的实施例的硬件结构示意图;
[0019]图4为本专利技术提供的日志压缩和分析的计算机存储介质的实施例的示意图。
具体实施方式
[0020]为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术实施例进一步详细说明。
[0021]需要说明的是,本专利技术实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本专利技术实施例的限定,后续实施例对此不再一一说明。
[0022]本专利技术实施例的第一个方面,提出了一种日志压缩和分析的方法的实施例。图1示出的是本专利技术提供的日志压缩和分析的方法的实施例的示意图。如图1所示,本专利技术实施例包括如下步骤:
[0023]S1、响应于生成初始日志,对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理;
[0024]S2、确定初步处理后的所述初始日志的文本结构,并对相关语句进行聚合处理;
[0025]S3、通过自然语言表达式对聚合处理后的日志进行迭代以生成表达式;以及
[0026]S4、将表达式进行整合以形成分析报告并输出。
[0027]在本专利技术实施例中,当初始日志生成后,对初始日志进行关键词分析、关键语句抽取,压缩日志的内容,保留日志中的关键信息,并提高下一步对日志进行处理的效率。随后通过词法、语法分析等步骤,对日志进行分析,结果优化,生成较为简介的分析报告。若日志中出现了异常信息,通过日志分析结果的参数、请求,自动结合代码传入参数进行分析,生成异常报告。
[0028]响应于生成初始日志,对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理。
[0029]在一些实施方式中,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:通过使用相同关键词和时间坐标的方式将相同的日志抽取只保留一份,并将重复日志删除。通过模式匹配识别大量重复日志,使用相同关键词+时间坐标方式,将相同的日志抽取只保留一份,查看时可通过关键字、时间、差异拼接组装,降低存储空间占用。<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种日志压缩和分析的方法,其特征在于,包括如下步骤:响应于生成初始日志,对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理;确定初步处理后的所述初始日志的文本结构,并对相关语句进行聚合处理;通过自然语言表达式对聚合处理后的日志进行迭代以生成表达式;以及将表达式进行整合以形成分析报告并输出。2.根据权利要求1所述的日志压缩和分析的方法,其特征在于,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:通过使用相同关键词和时间坐标的方式将相同的日志抽取只保留一份,并将重复日志删除。3.根据权利要求1所述的日志压缩和分析的方法,其特征在于,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:将日志文本内容分割成句,根据语料库将分割成句的文本进行分词,并将停用词进行过滤。4.根据权利要求1所述的日志压缩和分析的方法,其特征在于,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:根据词向量的维度、上下文最大距离、迭代次数、步长计算各个词语的权重以生成词向量。5.根据权利要求4所述的日志压缩和分析的方法,其特征在于,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:根据各个词语的权重计算语句的关键程度,并依据日志等级对所述语句进行排序,根据预设的摘要比率对排序后的语句进行保留,并对保留的词语进行词性标注...

【专利技术属性】
技术研发人员:董元昊
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1