一种用于云原生系统日志训练的日志模式提取方法及系统技术方案

技术编号：24251421 阅读：123 留言：0更新日期：2020-05-22 23:30

本发明专利技术涉及一种用于云原生系统日志训练的日志模式提取方法及系统，填补了云原生系统中大量日志有效地抽取为含有语义的词向量日志模式的空白，方法步骤包括：基于云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达；基于领域内日志变量知识和通用规则，对日志进行预处理；基于领域内近反义词词典，对日志中单词进行基于语义的向量化；构建一颗定深日志模式提取树，对该树内部的匹配或处理节点进行定义；对每一条日志进行分析抽取，对抽取的日志模式和对应的日志行ID进行存储，抽取的日志模式是含有语义的词向量数组。本方法的输出结果可以应用于云原生系统中日志分析、故障检测模型的训练及日志的画像构建等。

A log pattern extraction method and system for cloud native system log training

全部详细技术资料下载

【技术实现步骤摘要】
一种用于云原生系统日志训练的日志模式提取方法及系统
本专利技术涉及计算机
，尤其是涉及一种用于云原生系统日志训练的日志模式提取方法及系统。
技术介绍
日志是系统运维重要的信息来源，日志通过行文本的形式来记录系统运行过程中的事件轨迹。随着5G网络、物联网系统的发展，计算机系统的规模越来越复杂，既可以扩展至数千台商用机器的云原生分布式系统(例如Hadoop，Spark)，也可以扩展到具有数千个处理器的超级高性能计算机。由于这些系统全天候运行并为全球数以万计在线用户提供服务，因此必须具有高可用性和可靠性。为了达到这个目的，日志分析技术被广泛应用于服务管理与智能运维，例如故障检测等。这些技术通过数据挖掘模型或机器学习模型来分析系统行为，大多数模型都需要结构化输入。如上所述，日志是通过行文本的形式来记录系统运行过程中的事件轨迹，并非结构化的输入，所以需要对日志进行结构化的处理，即日志模式提取(也可称为日志解析)。日志模式提取的目标是将原始日志消息转换为结构化日志消息，例如，将日志行“Receiveddatad1567ofsize17本文档来自技高网...

【技术保护点】
1.一种用于云原生系统日志训练的日志模式提取方法，其特征在于，该方法包括以下步骤：/n步骤1：针对云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达；/n步骤2：基于领域内的日志变量知识和通用规则，对日志进行预处理；/n步骤3：基于领域内的近反义词词典，对经过预处理的日志中的单词进行基于语义的向量化表达；/n步骤4：构建定深日志模式提取树，并对该树内部的匹配或处理节点进行定义；/n步骤5：利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取，对抽取的日志模式和对应的日志行ID进行存储，抽取的日志模式是含有语义的词向量数组。/n

【技术特征摘要】
1.一种用于云原生系统日志训练的日志模式提取方法，其特征在于，该方法包括以下步骤：
步骤1：针对云原生系统日志构建领域内的日志单词近反义词词典和领域内的日志变量知识表达；
步骤2：基于领域内的日志变量知识和通用规则，对日志进行预处理；
步骤3：基于领域内的近反义词词典，对经过预处理的日志中的单词进行基于语义的向量化表达；
步骤4：构建定深日志模式提取树，并对该树内部的匹配或处理节点进行定义；
步骤5：利用构建的定深日志模式提取树对基于语义的向量化表达的日志中的每一条进行分析抽取，对抽取的日志模式和对应的日志行ID进行存储，抽取的日志模式是含有语义的词向量数组。

2.根据权利要求1所述的一种用于云原生系统日志训练的日志模式提取方法，其特征在于，所述的步骤1具体包括：对云原生系统日志中特有的近义词反义词进行提取，使得具有相同上下文语义的近反义单词能够区别处理，并对云原生系统日志中特有的变量进行归纳，使其不会与日志模式中的单词混淆。

3.根据权利要求1所述的一种用于云原生系统日志训练的日志模式提取方法，其特征在于，所述的步骤2中的对日志进行预处理包括对日志特殊变量进行预处理、对日志行进行预处理和对日志单词进行预处理。

4.根据权利要求...

【专利技术属性】
技术研发人员：杜庆峰，赵亮，张双俐，韩永琦，徐锦程，殷康璘，邱娟，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人