一种日志压缩和分析的方法、系统、设备和存储介质技术方案

技术编号:38587923 阅读:25 留言:0更新日期:2023-08-26 23:29
本发明专利技术提供一种日志压缩和分析的方法、系统、设备和存储介质,方法包括:响应于生成初始日志,对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理;确定初步处理后的所述初始日志的文本结构,并对相关语句进行聚合处理;通过自然语言表达式对聚合处理后的日志进行迭代以生成表达式;以及将表达式进行整合以形成分析报告并输出。本发明专利技术通过textrank算法对日志内容进行关键词、关键语句抽取、再使用自然语言处理相关方法结合代码对日志进行分析,方便运维人员对大规模分布式存储中的日志进行存储、分析。分析。分析。

【技术实现步骤摘要】
一种日志压缩和分析的方法、系统、设备和存储介质


[0001]本专利技术涉及日志处理领域,更具体地,特别是指一种日志压缩和分析的方法、系统、设备和存储介质。

技术介绍

[0002]分布式存储集群规模逐渐增大,每天将产生数百GB的日志信息。这些日志会占用较大的存储资源,同时海量的日志对运维人员来说难以分析处理。当前普遍的解决方式为对日志进行压缩、上传至另外的服务器或者定时进行清理删除。针对日志分析处理主要采用关键词判断、文本标注对比的方式进行分析。使用传统的日志压缩,压缩比率较小,保留无效信息较多,若采用定时清理的方法,可能无法尽可能多的保留日志信息。日志分析中若采用关键词判断相关方法进行分析,会有效率较低、非专业人员难以理解等问题。

技术实现思路

[0003]有鉴于此,本专利技术实施例的目的在于提出一种日志压缩和分析的方法、系统、计算机设备及计算机可读存储介质,本专利技术使得分布式存储的日志量降低,减少日志空间降低成本,可保留更多的日志以便于问题的追踪;通过自然语言处理的日志,易于运维人员理解日志内容,快速分析问题,并及时处理潜在本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种日志压缩和分析的方法,其特征在于,包括如下步骤:响应于生成初始日志,对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理;确定初步处理后的所述初始日志的文本结构,并对相关语句进行聚合处理;通过自然语言表达式对聚合处理后的日志进行迭代以生成表达式;以及将表达式进行整合以形成分析报告并输出。2.根据权利要求1所述的日志压缩和分析的方法,其特征在于,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:通过使用相同关键词和时间坐标的方式将相同的日志抽取只保留一份,并将重复日志删除。3.根据权利要求1所述的日志压缩和分析的方法,其特征在于,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:将日志文本内容分割成句,根据语料库将分割成句的文本进行分词,并将停用词进行过滤。4.根据权利要求1所述的日志压缩和分析的方法,其特征在于,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:根据词向量的维度、上下文最大距离、迭代次数、步长计算各个词语的权重以生成词向量。5.根据权利要求4所述的日志压缩和分析的方法,其特征在于,所述对所述初始日志进行关键词分析和关键语句抽取以对所述初始日志进行初步处理包括:根据各个词语的权重计算语句的关键程度,并依据日志等级对所述语句进行排序,根据预设的摘要比率对排序后的语句进行保留,并对保留的词语进行词性标注...

【专利技术属性】
技术研发人员:董元昊
申请(专利权)人:济南浪潮数据技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1